搜索引擎的工作原理是什么?一般可以分为以下几步


网页收集

预处理

检索服务

 搜索引擎的工作原理

搜索引擎是如何收集互联网中的网页的?

蜘蛛程序抓取

 QQ截图20200530145501.png

什么是蜘蛛?

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动抓取互联网中网页的程序或者脚本

 

蜘蛛的工作方式

蜘蛛是通过链接进行爬行并抓取网页的

 

种子站点

蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等



搜索引擎的收集机制

根据网站的更新周期

定期定量的收集

切忌三天打鱼两天晒网

 

原始数据库

蜘蛛抓取的页面所要储存的位置

 

什么是预处理

蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理

 


 

提取文字

搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容


中文分词

分词

分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分

例:百度联盟 可拆分成 百度 联盟 百度联盟

消噪

对内容没有任何影响却大量出现的词,如:的、 地、得、啊、哦、呀、不但、而且等



去除重复页面

镜像网页

内容完全相同,网址不同

倾向原创

 

计算网页重要度

积分制计算

通过被指向链接计算

网页的原创性

 

建立索引

索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据