Daum의 검색 원칙, 좋은 정보의 조건 좋은 문서의 조건
Daum 저품질에 걸려서 이 내용을 찾아서 한번 읽어본다.
자세히 읽으니 3시간 걸린다. 왜 나를 시험하는가, Daum 고객센터에 물으니 Daum에 '저품질'이라는 용어는 없다고 한다. 반성하면서 읽으면 좀 더 걸린다.
목차
- 데이터의 수집 및 구축 원칙
- 좋은 정보의 4가지 조건: 유사성, 문서품질, 최신성, 이용자의 반응
- 문서 품질 판단 기준의 5가지 요소
- 적합도 방해 요소
- 좋은 문서의 조건
1. 공정한 데이터의 수집 및 구축 원칙
1) 인터넷상에 존재하는 가능한 모든 자료를 수집하거나 새롭게 구성한 결과물을 검색 서비스로 제공하기 위해 노력한다. 특히 국내 이용자들을 위한 한글 콘텐츠의 수집과 서비스에 주력한다.
- 인터넷 데이터 수집 방법: 검색로봇(=크롤러, crawler)
- 검색로봇은 웹 페이지를 방문하며, 방문한 페이지의 운영자가 Daum 검색로봇의 수집을 거부하는 정책을 가지고 있지 않는 한, 가능한 모든 정보를 수집한다.
- 이 과정에서 Daum의 검색로봇은 임의적으로 특정 사이트를 수집의 대상에서 배제하거나 차별을 두지 않는다.
- 또한, 검색로봇은 문서 내에 포함된 링크의 분석을 통해 문서 간의 연결관계를 파악하여 새로운 문서를 자동으로 찾기도 한다.
- 이를 통해서 Daum은 자동적으로 대량의 데이터를 수집한다(그래서 Daum 검색 결과에서는 네이버 블로그도 많이 보인다고 한다
2) 한글 콘텐츠는 전 세계 콘텐츠의 0.3%에 불과
- 양질의 콘텐츠를 구축하고 인터넷 생태계를 풍성하게 만들 수 있도록 카페, 블로그, 지식 등 서비스를 제공
- 이용자들의 콘텐츠 중에서 검색을 허용하는 정보에 한해서 검색 결과로 제시
3) 지속적으로 전문 정보(DB)를 확보하기 위해 노력
2. 검색 결과 노출 원칙의 구성 요소 및 구성 방법
1) "한국형 통합검색" 방식의 검색
(1) 좋은 정보의 조건; 이용자의 질문에 적합도가 높은 정보인지를 판단
① 유사성
검색 결과로 제시된 문서가 이용자가 입력한 검색어와 얼마나 유사한 내용을 포함하고 있는지 여부:
제목, 본문 등 문서의 중요한 영역에 검색어가 포함될 경우, 유사성이 높다고 할 수 있다.
② 문서품질
문서 자체의 기본 품질을 판단하는 요소 5가지
(내용이 부실한 문서의 제목에 이용자가 입력한 검색어가 있다고 이를 검색 결과로 노출되지 않는다)
(다음 5가지로 판단)
- 주제의 일관성
- 콘텐츠의 내용의 풍부성
- 댓글이나 트랙백 등 다른 이용자들과 교류의 정도
- 조회수: 즉, 인기가 많은 문서는 품질이 높게 평가된다.
- 문서 작성자가 평소 좋은 글을 많이 쓰는지 여부 --> 이것도 품질 판단 요소가 된다.
③ 최신성
문서가 얼마나 최근에 작성되었는지 여부를 말한다.
최신성의 판단 기준은 다음과 같다.
- 일반적인 사항: 검색어 입력한 시점과 검색 결과로 보일 문서의 작성 시점의 차이가 적을수록 관련성이 높다고 볼 수 있다. 또한, 최근에 작성된 문서는 그 문서가 담고 있는 내용이 유효할 가능성도 높다.
- 다만, 컬렉션의 종류에 따라 최신성을 고려하는 비중이 다를 수 있다. 즉, 뉴스처럼 새로운 정보에 대한 수요가 많은 경우와 지식처럼 고정된 정보를 주로 다루는 경우는 최신성을 고려하는 비중이 상반될 수 있다.
- 검색어 자체에서도 최신성을 고려하는 비중이 다를 수 있는데, ‘공자, 맹자’ 같은 검색어에 비해 ‘방역패스’ 같은 경우, 최신성 비중이 높은 것을 예로 들 수 있습니다.
④ 이용자의 반응
- 이용자가 보여주었던 일련의 행태 정보
- 대표적으로, 어떤 글이 상위에 노출되었음에도 불구하고 클릭이 많이 발생하지 않는 경우는 이용자의 낮은 만족도에 기인했다고 해석할 수 있다.
- 반대로 클릭이 많이 발생했거나 해당 검색 결과를 오랜 시간 소비한 경우 그리고 해당 결과를 소비한 이후 다른 검색 결과를 소비하지 않았다면 그 문서 혹은 컬렉션에서 가장 높은 검색 만족도를 얻었다고 해석할 수 있다.
- 그러므로 이용자의 검색 결과 만족도에 도움이 되는 정보 및 요소들과 그 반대의 것들을 지속적으로 확인하여, 검색 결과 만족도를 떨어뜨리는 요소가 발견되면 추후 검색 결과를 구성함에 있어 적절한 조치를 취한다.
⑤ 적합도 방해 요소
- 성인 콘텐츠
- 마약, 도박 등의 불법적 콘텐츠
- 영화, 음악, 서적 등의 저작권을 침해하는 콘텐츠
- 주민등록번호 등 타인에 의해서 불법적으로 활용될 개인정보가 포함된 콘텐츠
- 의도적으로, 문서 클릭 시 해당 문서가 아닌 다른 문서로 이동하게 하게 하거나 문서 내에 악성코드가 있는 콘텐츠
- 키워드, 이미지, 링크 처리 등을 통해서 비정상적인 방법으로 만들어진 콘텐츠
- 특정 키워드를 반복해서 작성하는 등 대량, 반복적인 방법으로 만들어진 콘텐츠
- 상업적인 목적을 위해서 만들어진 콘텐츠
2) 좋은 문서의 조건(Daum 검색 기준)
① 어떤 대상에 대한 생각이나 경험한 내용을 작성자가 본인이 직접 작성하여 검색 이용자들로 하여금 실제적 정보를 제공할 수 있는 문서.
② 내용을 이해하는데 도움을 주는 사진, 지도 등의 부가정보가 풍부한 문서
③ 비교적 최신의 신뢰할 수 있는 정보를 담고 있는 문서
④ 비슷한 내용의 많은 문서보다 그 문서만의 고유한 정보가 있는 소수의 문서
⑤ 영리 목적이 아닌 웹 콘텐츠 생산을 위한 순수한 목적으로 작성된 문서
3) 검색 적합도 우선
검색은 이용자가 검색어를 입력하면, 검색엔진이 Daum이 수집하거나 새롭게 구성한 결과물과 검색어 간의 적합도를 계산하고 그 확률이 높은 순서대로 보여준다.
검색 적합도를 최우선 목표로 하므로 자사 서비스 외에 다른 서비스에 대해 차별하지 않는다.
4) 검색 결과 자동 결정
검색어에 따라 제시되는 컬렉션 및 컬렉션을 구성하는 문서의 종류와 숫자는 최적의 검색 결과를 위해 자동으로 결정되며 수정이 불가능하다. 인위적으로 개입해 검색 결과를 조정할 경우, 오히려 이용자의 검색 만족도와 서비스의 경쟁력을 떨어뜨릴 수 있기 때문이다.
5) 이용자의 검색 활용 정보 반영.
- 이를 반영해 적합도와 관련된 다양한 요소들의 가중치를 재구성.
- 일반적으로 임의로 추출된 검색어를 별도의 ‘평가자 그룹’을 통해서 검색 만족도를 평가
- 그 결과를 검색 품질 개선에 반영
- 그러므로 검색 결과는 검색 시점에 따라 다르게 나타날 수 있다.