-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
OpenCV
基于opencv的人脸和人眼检测程序,mfc界面,功能强大,简洁好用-Opencv-based human face and the human eye testing procedures, mfc interface, a powerful, simple and easy to use
- 2022-01-28 00:57:35下载
- 积分:1
-
windows下php5.3的memcache安装
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
php5.3 windows memcache
- 2022-07-01 16:52:52下载
- 积分:1
-
opencl编程的头文件和相应的文件说明,是通用并行计算的标准...
opencl编程的头文件和相应的文件说明,是通用并行计算的标准-the header file for opencl programming,including its direction for parallel computing.
- 2023-08-25 15:05:08下载
- 积分:1
-
一具有序列化存储读取功能de的多文档-视图编程源码
一具有序列化存储读取功能de的多文档-视图编程源码-I have read the sequence of storage of multi-functional de documents- view programming source
- 2022-03-22 12:04:29下载
- 积分:1
-
OpenCV+MFC实现图片中两直线间测距
OpenCV+MFC在简单界面窗口打开图片,并且检测出图片中画的的两条之间的距离,该程序虽小但是五脏俱全,是一个小项目所具备的所以,程序实现,界面编程,可以在这个基础上做扩展继续进行其他的项目开发
- 2022-03-10 00:12:49下载
- 积分:1
-
用IP打开主机端口 实现主机间的数据传输 可以传输文件
用IP打开主机端口 实现主机间的数据传输 可以传输文件-IP host ports open between the mainframe data transmission can transfer files
- 2023-07-12 11:50:03下载
- 积分:1
-
生成cp1250~cp1258 8x8点阵字库
生成cp1250~cp1258 8x8点阵字库-Generated cp1250 ~ cp1258 8x8 dot matrix font
- 2022-01-27 13:14:20下载
- 积分:1
-
关于融合语音与手形识别的多模态生物识别文献
关于融合语音与手形识别的多模态生物识别文献-On the integration of voice and hand recognition of multi-modal biometric literature
- 2022-11-06 02:55:04下载
- 积分:1
-
chess
下棋类小游戏,通过源程序的编译实现对弈。可以在任一环境下运行!-chess-like game, the compiler source code to achieve a chessboard. In an environment where the operation!
- 2023-02-15 11:55:03下载
- 积分:1