登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 208
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • OpenCl基础构架代码
    应用背景密码暴力计算,大型数据计算都会用到,并行计算,本例程为通用openCL并行计算,基于nvidia平台下,例程综合了openCL的常用函数,平台创建、设备选择、内存分配、任务队列、核函数生成,可用本文件代码作为运行基础构架模板。关键技术 OpenCL常用函数构成的技术构架,可以在本代码基础之上适当修改,既可以应用于其他场合,免去繁杂的,重复配置函数的调用,本例程具有自动检测运行平台,运行设备。
    2023-03-17 03:20:04下载
    积分:1
  • 在 win32 中的多线程应用程序
    在 win32 中的 Multithreadingapplications。C 编程在多线程环境中的 windows levelapplication 源代码。Multithreadin windows 系统很好的书。
    2022-10-17 09:15:15下载
    积分:1
  • 分布实现矩阵乘法
    资源描述 基于集群,测试后可用。 实现了并行分布式求解矩阵的幂。 基于消息传递的机制。主进程负责分配任务。各个子进程复杂计算。 通过分块,有效的解决了内存不足的问题。
    2023-07-19 07:35:03下载
    积分:1
  • I2C driver
    I2C总线驱动,8位单片机适用。 在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
    2022-01-31 04:15:49下载
    积分:1
  • 数据结构实验
    多种算法实现链表的排序,可以更具需要进行适当该表计算哦,是基础了,欢迎同在学习的伙伴一起努力哦~ 数据结构实验
    2022-11-12 13:15:04下载
    积分:1
  • GPU上CUDA实现N-Body
    应用背景在GPU上实现N-BODY算法。N-Body模拟问题覆盖了自然科学的很多领域,从宇观的天体物理到宏观的流体动力学,直至微观的分子动力学。例如通过研究围绕着银河系的暗物质晕轮的形状和动力学特征来探索银河系形成过程,需要模拟数百万的星体和暗物质间的作用。现代生物物理学和化学中的许多研究,如细菌或植物体的光合作用膜处发生的光能向化学能的转化,染色体中DNA和蛋白质分子的描述,都需要模拟上千万的原子核分子的作用。关键技术N-Body问题的两个重要特征是: 第一点.计算规模大,因为无论是宇观的天体尺寸还是微观的分 子尺度.都包含了大量的粒子,粒子的规模大到数百万、千万。由于在 系统中任意的两个粒子问都存在着相互作用,因此商接计算粒子间的 相互作用的量级就是O(N^2); 第二点.系统是动态变化的。为了反应系统的具体变化.尤其是在微观分子结构中.要求时间步足够小。这两个特征决定了计算机模拟 时巨大的计算量。这对于任何扁性能的单台计算机来说都是一个很难突破的瓶颈.因此采用并行汁算是解决N-Body问题的必然选择。主要涉及数据划分和线程任务划分实现。
    2022-12-08 07:20:03下载
    积分:1
  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • GPU CUDA 的矩阵SOR
    SOR(Successive Over-Relaxation) 又名逐次超松弛法,是解决微分方程的一种通用算法,主要应用在解决拉普拉斯方程、肥皂泡形状等的问题上。本程序使用CUDA来实现sor,并且包含两种方法,一种是单一block运算整个矩阵,每个thread运算矩阵中的一个方块。一种是多个block运算整个矩阵,每个thread运算矩阵中的一个点。该程序有良好的注释,适合初学者学习。
    2022-09-25 08:50:03下载
    积分:1
  • 696518资源总数
  • 105885会员总数
  • 31今日下载