블로그 & IT/인터넷, 웹 보안

다음 검색 노출의 원칙, 좋은 문서의 조건

moodyblues 2021. 12. 1. 01:58
728x90

Daum의 검색 원칙, 좋은 정보의 조건 좋은 문서의 조건

Daum 저품질에 걸려서 이 내용을 찾아서 한번 읽어본다.
자세히 읽으니 3시간 걸린다. 왜 나를 시험하는가, Daum 고객센터에 물으니 Daum에 '저품질'이라는 용어는 없다고 한다. 반성하면서 읽으면 좀 더 걸린다.

 

좋은 문서의 조건
다음 검색 노출의 조건

목차

  • 데이터의 수집 및 구축 원칙
  • 좋은 정보의 4가지 조건: 유사성, 문서품질, 최신성, 이용자의 반응
  • 문서 품질 판단 기준의 5가지 요소
  • 적합도 방해 요소
  • 좋은 문서의 조건

1. 공정한 데이터의 수집 및 구축 원칙

1) 인터넷상에 존재하는 가능한 모든 자료를 수집하거나 새롭게 구성한 결과물을 검색 서비스로 제공하기 위해 노력한다. 특히 국내 이용자들을 위한 한글 콘텐츠의 수집과 서비스에 주력한다.

  • 인터넷 데이터 수집 방법: 검색로봇(=크롤러, crawler)
  • 검색로봇은 웹 페이지를 방문하며, 방문한 페이지의 운영자가 Daum 검색로봇의 수집을 거부하는 정책을 가지고 있지 않는 한, 가능한 모든 정보를 수집한다.
  • 이 과정에서 Daum의 검색로봇은 임의적으로 특정 사이트를 수집의 대상에서 배제하거나 차별을 두지 않는다.
  • 또한, 검색로봇은 문서 내에 포함된 링크의 분석을 통해 문서 간의 연결관계를 파악하여 새로운 문서를 자동으로 찾기도 한다.
  • 이를 통해서 Daum은 자동적으로 대량의 데이터를 수집한다(그래서 Daum 검색 결과에서는 네이버 블로그도 많이 보인다고 한다

2) 한글 콘텐츠는 전 세계 콘텐츠의 0.3%에 불과

  • 양질의 콘텐츠를 구축하고 인터넷 생태계를 풍성하게 만들 수 있도록 카페, 블로그, 지식 등 서비스를 제공
  • 이용자들의 콘텐츠 중에서 검색을 허용하는 정보에 한해서 검색 결과로 제시

3) 지속적으로 전문 정보(DB)를 확보하기 위해 노력

2. 검색 결과 노출 원칙의 구성 요소 및 구성 방법

1) "한국형 통합검색" 방식의 검색


(1) 좋은 정보의 조건; 이용자의 질문에 적합도가 높은 정보인지를 판단

① 유사성

검색 결과로 제시된 문서가 이용자가 입력한 검색어와 얼마나 유사한 내용을 포함하고 있는지 여부:
제목, 본문 등 문서의 중요한 영역에 검색어가 포함될 경우, 유사성이 높다고 할 수 있다.

② 문서품질

문서 자체의 기본 품질을 판단하는 요소 5가지
(내용이 부실한 문서의 제목에 이용자가 입력한 검색어가 있다고 이를 검색 결과로 노출되지 않는다)
(다음 5가지로 판단)

  • 주제의 일관성
  • 콘텐츠의 내용의 풍부
  • 댓글이나 트랙백 등 다른 이용자들과 교류의 정도
  • 조회수: 즉, 인기가 많은 문서는 품질이 높게 평가된다.
  • 문서 작성자가 평소 좋은 글을 많이 쓰는지 여부 --> 이것도 품질 판단 요소가 된다.

③ 최신성

문서가 얼마나 최근에 작성되었는지 여부를 말한다.
최신성의 판단 기준은 다음과 같다.

  • 일반적인 사항: 검색어 입력한 시점과 검색 결과로 보일 문서의 작성 시점의 차이가 적을수록 관련성이 높다고 볼 수 있다. 또한, 최근에 작성된 문서는 그 문서가 담고 있는 내용이 유효할 가능성도 높다.
  • 다만, 컬렉션의 종류에 따라 최신성을 고려하는 비중이 다를 수 있다. 즉, 뉴스처럼 새로운 정보에 대한 수요가 많은 경우와 지식처럼 고정된 정보를 주로 다루는 경우는 최신성을 고려하는 비중이 상반될 수 있다.
  • 검색어 자체에서도 최신성을 고려하는 비중이 다를 수 있는데, ‘공자, 맹자’ 같은 검색어에 비해 ‘방역패스’ 같은 경우, 최신성 비중이 높은 것을 예로 들 수 있습니다.

④ 이용자의 반응

  • 이용자가 보여주었던 일련의 행태 정보
  • 대표적으로, 어떤 글이 상위에 노출되었음에도 불구하고 클릭이 많이 발생하지 않는 경우는 이용자의 낮은 만족도에 기인했다고 해석할 수 있다.
  • 반대로 클릭이 많이 발생했거나 해당 검색 결과를 오랜 시간 소비한 경우 그리고 해당 결과를 소비한 이후 다른 검색 결과를 소비하지 않았다면 그 문서 혹은 컬렉션에서 가장 높은 검색 만족도를 얻었다고 해석할 수 있다.
  • 그러므로 이용자의 검색 결과 만족도에 도움이 되는 정보 및 요소들과 그 반대의 것들을 지속적으로 확인하여, 검색 결과 만족도를 떨어뜨리는 요소가 발견되면 추후 검색 결과를 구성함에 있어 적절한 조치를 취한다.

⑤ 적합도 방해 요소

  • 성인 콘텐츠
  • 마약, 도박 등의 불법적 콘텐츠
  • 영화, 음악, 서적 등의 저작권을 침해하는 콘텐츠
  • 주민등록번호 등 타인에 의해서 불법적으로 활용될 개인정보가 포함된 콘텐츠
  • 의도적으로, 문서 클릭 시 해당 문서가 아닌 다른 문서로 이동하게 하게 하거나 문서 내에 악성코드가 있는 콘텐츠
  • 키워드, 이미지, 링크 처리 등을 통해서 비정상적인 방법으로 만들어진 콘텐츠
  • 특정 키워드를 반복해서 작성하는 등 대량, 반복적인 방법으로 만들어진 콘텐츠
  • 상업적인 목적을 위해서 만들어진 콘텐츠

2) 좋은 문서의 조건(Daum 검색 기준)


① 어떤 대상에 대한 생각이나 경험한 내용을 작성자가 본인이 직접 작성하여 검색 이용자들로 하여금 실제적 정보를 제공할 수 있는 문서.
내용을 이해하는데 도움을 주는 사진, 지도 등의 부가정보가 풍부한 문서
③ 비교적 최신의 신뢰할 수 있는 정보를 담고 있는 문서
④ 비슷한 내용의 많은 문서보다 그 문서만의 고유한 정보가 있는 소수의 문서
⑤ 영리 목적이 아닌 웹 콘텐츠 생산을 위한 순수한 목적으로 작성된 문서

3) 검색 적합도 우선

검색은 이용자가 검색어를 입력하면, 검색엔진이 Daum이 수집하거나 새롭게 구성한 결과물과 검색어 간의 적합도를 계산하고 그 확률이 높은 순서대로 보여준다.

검색 적합도를 최우선 목표로 하므로 자사 서비스 외에 다른 서비스에 대해 차별하지 않는다.

4) 검색 결과 자동 결정

검색어에 따라 제시되는 컬렉션컬렉션을 구성하는 문서의 종류와 숫자최적의 검색 결과를 위해 자동으로 결정되며 수정이 불가능하다. 인위적으로 개입해 검색 결과를 조정할 경우, 오히려 이용자의 검색 만족도와 서비스의 경쟁력을 떨어뜨릴 수 있기 때문이다.

5) 이용자의 검색 활용 정보 반영.

  • 이를 반영해 적합도와 관련된 다양한 요소들의 가중치를 재구성.
  • 일반적으로 임의로 추출된 검색어를 별도의 ‘평가자 그룹’을 통해서 검색 만족도를 평가
  • 그 결과를 검색 품질 개선에 반영
  • 그러므로 검색 결과는 검색 시점에 따라 다르게 나타날 수 있다.