登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 209
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • secuential归排序
    secuential归并排序
    2022-05-09 00:14:19下载
    积分:1
  • 酒店管理系统
    免费下载项目在线预订系统在 Php 中与我的 Sql.hear 在线酒店预订系统项目与完整的源代码。酒店管理系统项目用于维护每个客户的信息。每个客户有自己的个人资料。如果没有完美的软件然后它将非常艰巨的任务,要保持所有的记录完全没有出现任何错误。即使找到特定的记录,要需要很多时间。
    2022-03-15 10:09:14下载
    积分:1
  • Blend Images
    A demo of very simple image manipulation using a Parallel.For loop.  The application allows the user to load up two images and blends them together into a single, new image.        
    2022-07-27 17:53:54下载
    积分:1
  • cuda实现矩阵求逆
    此程序包的矩阵求逆函数基于 CUDA 的实现包含对称的积极明确逆矩阵使用 GPU。用法,请参阅 testspd.cpp 中的示例。此外,一般块矩阵求逆通过高斯(pivotting) 没有消除。请参阅 testge.cpp 例如使用。注: GE 可能无法在单精度足够稳定。请参阅生成文件更改为双精度。
    2022-07-16 13:09:40下载
    积分:1
  • 数据结构实验
    多种算法实现链表的排序,可以更具需要进行适当该表计算哦,是基础了,欢迎同在学习的伙伴一起努力哦~ 数据结构实验
    2022-11-12 13:15:04下载
    积分:1
  • 任务调度
    这是一份具有异构多核计算环境下的任务调度,计算异构环境下的最小makespan,适合研究并行计算的同学学习
    2022-02-06 06:14:35下载
    积分:1
  • 在 win32 中的多线程应用程序
    在 win32 中的 Multithreadingapplications。C 编程在多线程环境中的 windows levelapplication 源代码。Multithreadin windows 系统很好的书。
    2022-10-17 09:15:15下载
    积分:1
  • GPU上CUDA实现N-Body
    应用背景在GPU上实现N-BODY算法。N-Body模拟问题覆盖了自然科学的很多领域,从宇观的天体物理到宏观的流体动力学,直至微观的分子动力学。例如通过研究围绕着银河系的暗物质晕轮的形状和动力学特征来探索银河系形成过程,需要模拟数百万的星体和暗物质间的作用。现代生物物理学和化学中的许多研究,如细菌或植物体的光合作用膜处发生的光能向化学能的转化,染色体中DNA和蛋白质分子的描述,都需要模拟上千万的原子核分子的作用。关键技术N-Body问题的两个重要特征是: 第一点.计算规模大,因为无论是宇观的天体尺寸还是微观的分 子尺度.都包含了大量的粒子,粒子的规模大到数百万、千万。由于在 系统中任意的两个粒子问都存在着相互作用,因此商接计算粒子间的 相互作用的量级就是O(N^2); 第二点.系统是动态变化的。为了反应系统的具体变化.尤其是在微观分子结构中.要求时间步足够小。这两个特征决定了计算机模拟 时巨大的计算量。这对于任何扁性能的单台计算机来说都是一个很难突破的瓶颈.因此采用并行汁算是解决N-Body问题的必然选择。主要涉及数据划分和线程任务划分实现。
    2022-12-08 07:20:03下载
    积分:1
  • 视频游戏的流体模拟,第 3 部分
    涡粒子流体模拟 这篇文章,第三个在一系列,介绍了在 c + + 中使用谦虚,通常可用计算机硬件实时运行中实现流体模拟。第一篇文章总结了流体动力学 ;第二个调查流体模拟技术。 仿真这里介绍用途涡粒子,称为vortons由诺维科夫 (1983),来代表的流场和每一次的速度解决了。这种战术的使用 vortons 保留涡度无明显来源的扩散,可以模拟保留细鳞的详细信息。相比之下,其他流体模拟技术,使用原始变量 (速度和压力) 或网格数值弥漫性涡度,所以流动往往看起来厚和糖浆。当你看到这种模拟的结果时,你会惊讶于它保留了,多少议案详细考虑它跑得多快。 这种模拟也利用令人尴尬的并行算法的性质,并使用英特尔 ® 线程构建模块(英特尔 ® TBB) 跨越多个线程的工作。 在努力实现实时的流体运动,一些其他流体模拟利用图形处理单元 (GPGPU) 通用计算。
    2022-04-29 19:04:05下载
    积分:1
  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • 696518资源总数
  • 105885会员总数
  • 31今日下载