-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
A dynamic link library for the entry
一个用于入门的动态链接库的极好例子,当你把本例看完后,也就会在VC下封装动态链接库了,还有测试程序。-A dynamic link library for the entry-an excellent example, when you read this case even after the VC will be in the dynamic link library under the package, and there are test programs.
- 2022-02-09 20:01:09下载
- 积分:1
-
自己的小程序!请看一下!自己写的小程序
自己的小程序!请看一下!自己写的小程序-own small program! See what! His writing small programs
- 2022-01-28 20:17:37下载
- 积分:1
-
_CPU_ based on the precision timer, the clock frequency is higher
基于_CPU_的精确计时器,时钟频率越高-_CPU_ based on the precision timer, the clock frequency is higher
- 2022-04-18 19:48:21下载
- 积分:1
-
A simple personnel management system that focuses on ASP.NET and databases, as w...
一个简单人事管理系统,主要介绍ASP.NET和数据库以及网站等相关方面知识的应用-A simple personnel management system that focuses on ASP.NET and databases, as well as websites related to the application of knowledge
- 2023-06-21 04:15:04下载
- 积分:1
-
用MFC写的栈和队列的小程序,有漂亮的界面,debug文件夹中有演示...
用MFC写的栈和队列的小程序,有漂亮的界面,debug文件夹中有演示-with MFC wrote Stack and Queue small procedures, beautiful interface, debug folder with demonstration
- 2022-02-26 19:01:10下载
- 积分:1
-
To achieve a variety of high
实现矩阵的各种高级运算,加减乘除,转置,求逆-To achieve a variety of high-level matrix operations, addition and subtraction multiplication and division, transpose, inverse, etc.
- 2022-03-12 07:36:10下载
- 积分:1
-
危险的游戏,我有别人的游戏,但知道,米家其在另一个地方…
The game of risk, i have anothers games but know, mi house its in another place....so when i stay in mi house i send all my works.jejejejej im a begginer student.
- 2022-10-18 17:55:04下载
- 积分:1
-
WinCE下的注册表编辑程序,作为学习借鉴使用
WinCE下的注册表编辑程序,作为学习借鉴使用-WinCE Registry Editor under the procedures, as to learn from the use of
- 2022-02-09 21:07:55下载
- 积分:1
-
XMLProfile
XMLProfile - a non-MFC, non-STL class to read and write XML profile files-XMLProfile- a non-MFC, non-STL class to read and write XML profile files
- 2022-12-07 05:35:03下载
- 积分:1