php发展

首页 » 常识 » 预防 » 搜索引擎原理
TUhjnbcbe - 2021/3/10 18:17:00
北京白癜风哪个医院比较好 https://wapjbk.39.net/yiyuanfengcai/hj_bjzkbdfyy/
1.1 搜索引擎工作原理

搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查询。

页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供了数据支持。

页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提取页面的正文信息,并对正文信息进行分词等,为后续建立关键字索引及关键字倒排索引提供基础数据。

页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。

关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配,再向用户返回相应的页面排序列表。

1.1.1 搜索引擎抓取策略

搜索引擎对网页的抓取实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是想方设法地提高它的数据采集能力。

搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者机器人程序。

1.页面抓取流程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如图2-1所示。

图2-1 搜索引擎抓取页面简单流程

URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。

而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域名。例如,Google的网站登录地址是

1
查看完整版本: 搜索引擎原理