-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
窗口打开关闭动画效果。
打开:窗体慢慢向下展开
关闭:窗体慢慢向上收回...
窗口打开关闭动画效果。
打开:窗体慢慢向下展开
关闭:窗体慢慢向上收回-Close window animation effects
- 2023-03-10 12:25:04下载
- 积分:1
-
系统定时休眠的小程序
系统定时休眠的小程序-system regularly dormancy of small programs
- 2022-01-26 03:16:00下载
- 积分:1
-
经更改后的CUM 代码 来自天津 第二部分
经更改后的CUM 代码 来自天津 第二部分-CUM after the modified code from the second part of the Tianjin
- 2022-01-31 19:33:39下载
- 积分:1
-
VC用socket实现传输文件
用windows API实现winsock传输各种文件的代码,先建立连接后,遍历文件夹,把文件夹中文件依次以二进制流形式传输到E:
- 2022-05-13 19:15:48下载
- 积分:1
-
本程序实现了对具有优先功能的计算器的编写,支持括号等功能的优化计算器。...
本程序实现了对具有优先功能的计算器的编写,支持括号等功能的优化计算器。-This procedure has a priority on the implementation of the calculator function of the preparation, support brackets, such as optimizing the calculator function.
- 2022-02-06 09:14:55下载
- 积分:1
-
a small personal income tax calculation procedures of C program.
一个个人所得税计算小程序的C++程序。-a small personal income tax calculation procedures of C program.
- 2022-05-22 02:45:37下载
- 积分:1
-
网络电话开发,可以语音对讲
网络电话开发,可以语音对讲-phone network development and can voice Talkback
- 2022-01-26 00:13:02下载
- 积分:1
-
不错的C源码,是关于遥操作服务的,很不错的
不错的C源码,是关于遥操作服务的,很不错的-good C source code, the distance of operational services, and very good
- 2022-08-10 12:47:53下载
- 积分:1
-
用VB5.0收集键盘和鼠标信息
用VB5.0收集键盘和鼠标信息-VB5.0 collection with keyboard and mouse information
- 2022-02-02 00:40:44下载
- 积分:1