-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
我自己用api编的一个写字板程序,初学者可以学习一下。
我自己用api编的一个写字板程序,初学者可以学习一下。-This is my notepad, which code by API directly. for beginer ref.
- 2022-02-26 04:46:26下载
- 积分:1
-
用java实现数据结构中的栈和队列,是一个applet程序,可以通过实际操作来演示数据结构的栈的具体实现方式。...
用java实现数据结构中的栈和队列,是一个applet程序,可以通过实际操作来演示数据结构的栈的具体实现方式。-Realize the stack and queue in the structure of the data with java. It s a applet programe which can demonstrate realizing the way concretly of the stack of the structure of the data through practical operation .
- 2022-07-27 09:23:07下载
- 积分:1
-
产生毫秒级延时的程序
产生毫秒级延时的程序-have millisecond delay the proceedings
- 2022-05-06 15:26:59下载
- 积分:1
-
猜数字的游戏,经典简单的游戏
猜数字的游戏,经典简单的游戏-viewing of the game, a simple game classic
- 2022-03-22 05:59:05下载
- 积分:1
-
Flex框架图
flex Framework diagram
- 2023-03-26 08:00:03下载
- 积分:1
-
management for the CD Oh, wrote it myself.
用于光盘管理哦,自己写的.-management for the CD Oh, wrote it myself.
- 2023-03-04 07:50:04下载
- 积分:1
-
基于Delphi的前景产生的BOM树结构的递归过程
基于Delphi的,用于前台产生BOM树状结构的递归过程-based Delphi, prospects for the tree structure generated BOM recursive process
- 2022-02-26 15:05:40下载
- 积分:1
-
一个关于播放flash文件的控件,欢迎下载!
一个关于播放flash文件的控件,欢迎下载!-a document on the flash player controls, welcome to download!
- 2022-03-24 16:20:09下载
- 积分:1
-
几篇有关雷达目标识别的优秀论文(基于非线性方法的雷达目标识别研究.NH基于高分辨距离像的雷达目标识别.NH雷达目标识别系统的研究和设计.KDH).part2...
几篇有关雷达目标识别的优秀论文(基于非线性方法的雷达目标识别研究.NH基于高分辨距离像的雷达目标识别.NH雷达目标识别系统的研究和设计.KDH).part2-Several of the radar target recognition of outstanding paper (based on nonlinear methods of study of radar target recognition. NH HRRP-based radar target identification. NH radar target identification system research and design. KDH). Part2
- 2022-02-06 09:33:48下载
- 积分:1