BreadthFirst Search Crawling Yields HighQuality Pages

Compaq system research center (2001)

page를 crawl할 때 PageRank를 이용하여 page를 평가한다.

web graph를 순회할 때 너비우선검색 이 좋은 crawl 전략이며, 이것이 crawl에서 high-quality page를 빨리 찾을 수 있다.

가장 쉽게 생각할 수 있는 방법은 random 방식이다. Scooter가 이 방식을 사용

Internet Archive crawler는 64개의 host를 동시에 병행적으로 crawl 한다. 하지만 이 방식은 high-quality page를 고려하지 않는다.

많은 전략이 있겠지만 각 검색회사들은 자신의 crawl 전략을 공개하지 않아 알려진 전략은 거의 없다.

The Intelligent Surfer:
Probabilistic Combination of Link and Content Information in PageRank

University of Washington

전통적인 웹 정보검색 기술은 그 방대한 정보의 양과 다양한 정보의 내용으로 인해 만족할 만한 검색 결과를 내지 못함.

이러한 문제를 해결하기 위해 page간의 연결구조(link structure)에 포함된 정보를 활용한 연구가 진행되었고

가장 잘 알려진 알고리즘은 HITS와 PageRank이다. 이러한 알고리즘은 더 많이 연결되어 있는 page가 더 나은 page라는 믿음(belief)을 기반으로 한다.

page content와 지능적 random surfer의 form에 있는 연결구조를 확률적으로 결합한 모델을 제안함.

이 모델은 오늘날 사용되는 대부분의 query relevance function을 지원하며 PageRank보다 더 나은 결과를 낸다.

대신 시간과 저장용량이 필요하지만 그것은 오늘날의 검색엔진에서 수용가능한 수준이다.

이 글은 스프링노트에서 작성되었습니다.

Semantic Search(Paper) (0)	2012.08.23
SCI Journals (0)	2012.08.23
Finding Matches for Keyword Search (0)	2012.08.23