구글 검색 랭킹 알고리즘 개선 제안

Posted at 2007. 11. 30. 10:55 // in 구글이야기 // by 김윤수


전문 자료를 검색할 때는 PageRank 라는 알고리즘이 탁월하지만 시간에 따라 계속해서 바뀌어가는 사람들의 관심사를 따라갈 수는 없다. 시간에 따라 바뀌는 사람들의 관심사를 따라갈 수 있는 새로운 랭킹 알고리즘(편의상 TrendRank라고 하자)이 필요하다. TrendRank에 따라 미리 계산된 랭킹이 PageRank 와 함께 참조되어 검색 결과가 리턴되어야 한다. 아니면 검색 UI 에 '관심도순'이라는 걸 누르면 이런 TrendRank가 적용되게 할 수 있을 것이다.

TrendRank 는 다음과 같은 사항들이 고려되어야 한다

  • Ranking을 매기려는 문서와 비슷한 키워드(또는 태그)를 갖는 문서들 또는 내용을 갖는 문서들이 많을 경우, 그 안에서는 오래된 문서의 랭크를 높인다. why ? 한 번 기사 또는 글이 뜨면 계속해서 확대 재생산되는 현상을 모델링하기 위해
  • Document Cluster 안에서 그 Cluster 가 생성된 시점(가장 오래된 문서가 생성된 시점)부터  PageRank 가 높아진 문서들에 대해서는 랭크를 더 높인다. why ? PageRank 도 일종의 Attention 이므로 그 Cluster 안에서 PageRank가 높다면 상당히 좋은 검색 결과가 될 것임. 보통 이슈가 된 것들에 대해서는 한참이 지나면 그 내용을 정리하는 글이 나오기 마련임. 그런 글들은 들어오는 링크도 많고 나가는 링크도 많아짐.
  • 최근에 많은 사람들이 입력한 키워드에 매치가 되는 Document Cluster 의 랭크를  전체적으로 높인다
  • Attention 이라고 할 수 있는 것들을 반영: 댓글, 트랙백, 검색 후 클릭된 회수 및 체류 시간, 북마크 회수 등을 고려
  • 해당 키워드를 사람들이 얼마나 많이 입력하고 있는가 ? 키워드가 많이 입력되기 시작한 시점을 찾아내어 그 이후 문서의 랭크를 높인다.
  • Document Cluster 는 계속해서 Update 하되 그 안에서의 랭킹을 매기는 주기는 PageRank 보다는 자주해야 할 것임.
구글이 이미 이렇게 하고 있나요 ? 이렇게 하고 있으면 검색 결과가 지금처럼 나올 것 같진 않은데 말입니다.

Daum 블로거뉴스
블로거뉴스에서 이 포스트를 추천해주세요.
제 글이 유익하셨다면 오른쪽 버튼을 눌러 제 블로그를 구독하세요. -> 한RSS에 추가
블로그를 구독하는 방법을 잘 모르시는 분은 2. RSS 활용을 클릭하세요.
RSS에 대해 잘 모르시는 분은 1. RSS란 무엇인가를 클릭하세요.