您当前所在的位置：首页 > 网络营销知识 > SEO分享二：搜索引擎的工作原理

SEO分享二：搜索引擎的工作原理

　　诺亚SEO教程分享继续，干货多多的！

一、搜索引擎如何抓取网页？

　　搜索引擎有一种程序，叫做robot或者叫做spider。这种程序通过网页上的超级链接进入另一个网页，从而发现更多的网页。所以每个网页就是一个点，网页与网页之间靠超级链接组成网络，那么在网络上爬来爬去的程序叫做spider（蜘蛛）就很得体了。

二、搜索引擎是如何工作？

1、抓取网页

　　每个独立的搜索引擎都有自己的网页抓取程序（spider）。Spider顺着网页中的超链接，连续地抓取网页。被抓取的网页被称之为网页快照。

2、处理网页

　　搜索引擎抓到网页后，需要提取关键词，建立索引文件。还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务

　　用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

三、分词和索引

　　当搜索引擎把一个网站抓取下来后，接着要做的事情就是把网页里的词语分开放到索引库里。分词在这个时候就要应用到了，所谓的分词，其实很简单，就是把词语分开。

　　英语的分词好处理一点，因为英语的每个单词之间是用空格分开的，基本上就只要处理一些虚词、介词，还有一些词语的单复数，变形词等等。但是中文的分词就复杂很多了，句子中的每个字都连在一起，有时候即使是人来判断，都还有产生歧义的时候。中文的分词有很多方法，也很容易弄懂的，如正向切分法，逆向切分法等等，网上有很多相关的资料。