一、搜索引擎如何抓取网页?
搜索引擎有一种程序,叫做robot或者叫做spider。这种程序通过网页上的超级链接进入另一个网页,从而发现更多的网页。所以每个网页就是一个点,网页与网页之间靠超级链接组成网络,那么在网络上爬来爬去的程序叫做spider(蜘蛛)就很得体了。
二、搜索引擎是如何工作?
1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。
2、处理网页
搜索引擎抓到网页后,需要提取关键词,建立索引文件。还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
三、分词和索引
当搜索引擎把一个网站抓取下来后,接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了,所谓的分词,其实很简单,就是把词语分开。
英语的分词好处理一点,因为英语的每个单词之间是用空格分开的,基本上就只要处理一些虚词、介词,还有一些词语的单复数,变形词等等。但是中文的分词就复杂很多了,句子中的每个字都连在一起,有时候即使是人来判断,都还有产生歧义的时候。中文的分词有很多方法,也很容易弄懂的,如正向切分法,逆向切分法等等,网上有很多相关的资料。