的形式存储-IMDN开发者社群-imdn.cn"> 的形式存储 - IMDN开发者社群-imdn.cn">
登录
首页 » java » 微博爬虫

微博爬虫

于 2022-06-16 发布 文件大小:35.97 MB
0 127
下载积分: 2 下载次数: 1

代码说明:

可用于爬取微博信息 主要循环代码 main loop : rounds of generate - fetch - parse - update # 执行循环,每次执行一层(一个深度)的爬取 # 每层爬取都会执行: # 1.生成本次待爬取任务列表(generate) # 2.抓取爬取列表中页面(fetch) # 3.解析爬取页面(parse),抽取所有链接,以及搜索引擎相关数据(网页标题、网页文本、meta信息等) # 4.将从本次爬取中解析出的链接,更新(update)到$CRAWL_PATH/crawldb中,同时将抓取到的链接的状态(抓取成功、失败、重试次数),更新到$CRAWL_PATH/crawldb中 # LIMIT是bin/crawl命令后参数中给定的 for ((a=1; a

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 696518资源总数
  • 105958会员总数
  • 18今日下载