登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 230
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • cuda
    资源描述VS_cuda并行计算 两基于vs实现的.cu代码 简单的实现矩阵相乘和反转。
    2022-05-21 15:38:13下载
    积分:1
  • OMPI编译器
    OMPI编译器 用于OPENMP的开源C编译器 上传1.2.2版本 请在LINUX环境下使用
    2023-06-19 07:10:04下载
    积分:1
  • PLINQ is Coming Up Soon (PFX)
    介绍
    2022-10-06 18:20:02下载
    积分:1
  • openmp+cuda 加速视频中彩色图像转换为灰度图像,提取视频图像中的边缘
    目的:加速视频中彩色图像转换为灰度图像,提取视频图像中的边缘。 开发环境:windows 8.1 x64操作系统  vs2012 cuda5.5  opencv2.4.8 硬件环境:NVIDIA  GeForce GT 740M ,4G内存,Intel(R) Core(TM) i5-4200MCPU @2.50GHz 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-08-18 21:36:49下载
    积分:1
  • avr2323 my test c emulador
    avr test fast pdp emulador kokoko dehght fh fg hd fgdf fdgdf bf bdtnjrtb bsdfb fvtbrtn fd dvrv vdr bdt f yngfnhgnrtn trnrtn rtntrn
    2022-02-04 03:35:22下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • Hadoop的相关资料
    能让大家更好的理解Hadoop Map Reduce的内容,并讲解如何安装hadoop,如何在Linux环境下配置Hadoop和ssh等,以及Hadoop等在大数据处理方面的应用。
    2022-02-04 06:07:18下载
    积分:1
  • 视频游戏的流体模拟,第 6 部分
    差动速度算法器 这篇文章,在一系列,第六描述从根本上不同的方法计算速度从涡度,提出了在这些文章中的流体模拟的基石之一。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了涡粒子流体模拟与双向流体体之间的相互作用,在真正的时间运行。第五篇文章展示了如何获取和使用 CPU 使用率分析数据,优化,进一步并行化的代码,这样,它跑得更快。 这篇文章介绍一种求解速度从涡度的微分技术和与第 3 部分中所提出的积分 treecode 技术及其成果和业绩形成鲜明对比。泊松规划求解在这篇文章提出了一种比跑得快 treecode,但它的结果看起来不同的可能不那么令人满意。 涡旋速度,回顾 记得第二篇文章,您可以计算速度从涡度 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-02-05 03:15:32下载
    积分:1
  • 任务调度
    这是一份具有异构多核计算环境下的任务调度,计算异构环境下的最小makespan,适合研究并行计算的同学学习
    2022-02-06 06:14:35下载
    积分:1
  • Hadoop 排序实现
    Hadoop环境下一个简单的排序算法实现,测试数据集可以选用任何数字形式的text文本文件,包含源代码及利用ant进行jar包压缩的build.xml文件,希望对大家学习Hadoop有用处。
    2023-08-13 20:45:04下载
    积分:1
  • 696518资源总数
  • 106227会员总数
  • 11今日下载