-
搜索引擎
爬虫模块、预处理模块和搜索模块。
搜索引擎的三个部分是相互独立的,三个部分分别工作,主要的关系体现在前一部分得到的数据结果为后一部分提供原始数据。
用户通过浏览器提交查询的词或者短语 P,搜索引擎根据用户的查询返回匹配的网页信息列表 L;
上述过程涉及到两个问题,如何匹配用户的查询以及网页信息列表从何而来,根据什么而排序?用户的查询 P 经过分词器被切割成小词组 并被剔除停用词 ( 的、了、啊等字 ),根据系统维护的一个倒排索引可以查询某个词 pi 在哪些网页中出现过,匹配那些 都出现的网页集即可作为初始结果,更进一步,返回的初始网页集通过计算与查询词的相关度从而得到网页排名,即 Page Rank,按照网页的排名顺序即可得到最终的网页列表;
假设分词器和网页排名的计算公式都是既定的,那么倒排索引以及原始网页集从何而来?原始网页集在之前的数据流程的介绍中,可以得知是由爬虫 spider 爬取网页并且保存在本地的,而倒排索引,即词组到网页的映射表是建立在正排索引的基础上的,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引;
网页的分析具体做什么呢?由于爬虫收集来的原始网页中包含很多信息,比如 html 表单以及一些垃圾信息比如广告,网页分析去除这些信息,并抽取其中的正文信息作为后续的基础数据。
- 2022-05-07 14:54:09下载
- 积分:1
-
方便地在Dlg上滚动地显示调试信息
方便地在Dlg上滚动地显示调试信息-easy rolling on the Dlg shows debugging information
- 2022-12-29 17:10:03下载
- 积分:1
-
这VB6代码时钟。
This the VB6 code for Clock.-This is the VB6 code for Clock.
- 2022-09-16 14:10:03下载
- 积分:1
-
里外有很多C++实例,并附有源码,都是在VC6.0上面调试过的,可以直接使用!...
里外有很多C++实例,并附有源码,都是在VC6.0上面调试过的,可以直接使用!-Inside and outside has a lot of C examples, with source code are in the VC6.0 debugger over the top and can be used directly!
- 2022-09-04 07:00:03下载
- 积分:1
-
wince 串行端口通信
串行端口通信平台为 wince 6.0.It 可以发送 16 机制数据和从串行端口接收 16 机制数据。您可以在设置中选择特殊的串行端口。它可以接收日期或多个字符,然后将其显示在对话框中。我们还可以传送文件,通过串行端口向其他设施。我们可以通过串行端口,如机器人、 门和其他设备使用的程序控制等设备。所以它是一个非常有用和方便的程序,使用它的人来说。
- 2022-07-03 17:19:57下载
- 积分:1
-
vc环境下使用QT编写的一个时钟程序,老外的源代码
vc环境下使用QT编写的一个时钟程序,老外的源代码
- 2022-02-20 14:46:49下载
- 积分:1
-
java时钟,有监控事件,时间计数器,每一次触发一次…
java时钟,有监听事件,时间计数器,每一秒触发一次,绘制图形-java clock, there are monitor events, time counter, every second the trigger once, drawing graphics
- 2023-03-14 20:05:04下载
- 积分:1
-
用C++编译的播放器,可以播放多种格式的音频文件,如MP3,WMA等...
用C++编译的播放器,可以播放多种格式的音频文件,如MP3,WMA等-With C++ Compiled player, can play multiple formats of audio files, such as MP3, WMA, etc.
- 2023-07-18 11:10:03下载
- 积分:1
-
测试cpu的源码
测试cpu的源码-source of cpu tests
- 2022-08-11 14:36:41下载
- 积分:1
-
用vb编写的通用库存管理系统,很好的,可以用做毕业设计的哦!...
用vb编写的通用库存管理系统,很好的,可以用做毕业设计的哦!-This is a general warehouse management system that designed with VB. It s great and can be used as a graduate project.
- 2022-06-12 16:19:28下载
- 积分:1