登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 262
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • cuda
    资源描述VS_cuda并行计算 两基于vs实现的.cu代码 简单的实现矩阵相乘和反转。
    2022-05-21 15:38:13下载
    积分:1
  • GPU CUDA 的矩阵SOR
    SOR(Successive Over-Relaxation) 又名逐次超松弛法,是解决微分方程的一种通用算法,主要应用在解决拉普拉斯方程、肥皂泡形状等的问题上。本程序使用CUDA来实现sor,并且包含两种方法,一种是单一block运算整个矩阵,每个thread运算矩阵中的一个方块。一种是多个block运算整个矩阵,每个thread运算矩阵中的一个点。该程序有良好的注释,适合初学者学习。
    2022-09-25 08:50:03下载
    积分:1
  • 同构DVS集群中基于自适应阈值的任务节能调度
    资源描述目前,高能效的并行任务调度算法设计已经成为集群系统的研究热点.现有基于复制的节能调度算法主要利用阈值平衡系统的性能和能耗,但随机设置的阈值无法根据性能需求和环境参数等特征自动调节,导致调度算法存在一定的局限性.文中提出一种面向同构集群系统的两阶段节能调度算法ATES(Adaptive Threshold-based Energy-efficient Scheduling).首先,设计一种基于自适应阈值的任务复制策略,该策略能够自动计算最佳阈值,利用该阈值获取近似最优的任务分组.然后,将各分组任务调度到支持DVS的处理器上,并充分利用任务之间的空闲时间降低处理器电压.该算法将任务复制策略与电压调节技术有机结合,在调度过程中能够自动调整阈值,有效提高调度算法的能效.为了验证ATES算法的合理性,通过典型应用进行仿真实验,并与常见任务调度算法进行比较,结果表明ATES算法能够更好地实现性能和能耗之间的平衡.
    2022-04-25 05:27:51下载
    积分:1
  • spark apriori法实现代码
    应用背景  Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。  关键技术频繁项集挖掘采用spark实现的并行化挖掘算法。并行的apriori算法采用scala编写,并行的apriori采用java编写。里面会有较多函数使编程的内容。 
    2022-02-02 20:25:06下载
    积分:1
  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • implementation of the multiplication of two double matrices by using MATLAB C-Mex and CUBLAS library
    本文介绍了一个通过GPU CUDA实现两个双矩阵相乘的MATLAB运算包。
    2022-07-17 00:43:28下载
    积分:1
  • 细胞生命的模拟化
    This application provides an implementation of Conway’s Game of Life, using the Parallel class to parallelize the processing of the cellular automata.
    2022-06-29 16:39:03下载
    积分:1
  • 数据结构实验
    多种算法实现链表的排序,可以更具需要进行适当该表计算哦,是基础了,欢迎同在学习的伙伴一起努力哦~ 数据结构实验
    2022-11-12 13:15:04下载
    积分:1
  • Matlab pso1
    PSo代码如何提供鼠标点击和帮助请用代码dcscsdcccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc
    2022-01-27 18:24:48下载
    积分:1
  • 多目标遗传法优化
    研究多目标遗传算法的优化,包含遗传算法过程中涉及的的各个步骤,非常适合于研究遗传算法及对遗传算法进行多目标优化的同学
    2022-01-25 17:35:18下载
    积分:1
  • 696516资源总数
  • 106648会员总数
  • 8今日下载