-
基于Hadoop的文本分类(1)-文本预处理&文本表示
资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等;
二、算法简介:
1、此项目是基于Hadoop2.6进行MapReduce并行开发;
2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证);
3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计);
4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html
5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
- 2022-03-01 12:43:10下载
- 积分:1
-
同构DVS集群中基于自适应阈值的并行任务节能调度算法
资源描述目前,高能效的并行任务调度算法设计已经成为集群系统的研究热点.现有基于复制的节能调度算法主要利用阈值平衡系统的性能和能耗,但随机设置的阈值无法根据性能需求和环境参数等特征自动调节,导致调度算法存在一定的局限性.文中提出一种面向同构集群系统的两阶段节能调度算法ATES(Adaptive Threshold-based Energy-efficient Scheduling).首先,设计一种基于自适应阈值的任务复制策略,该策略能够自动计算最佳阈值,利用该阈值获取近似最优的任务分组.然后,将各分组任务调度到支持DVS的处理器上,并充分利用任务之间的空闲时间降低处理器电压.该算法将任务复制策略与电压调节技术有机结合,在调度过程中能够自动调整阈值,有效提高调度算法的能效.为了验证ATES算法的合理性,通过典型应用进行仿真实验,并与常见任务调度算法进行比较,结果表明ATES算法能够更好地实现性能和能耗之间的平衡.
- 2022-04-25 05:27:51下载
- 积分:1
-
HADOOP3使用开发教程
hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。
1. hadoop common:为其他项目提供基础设施
2. HDFS:分布式的文件系统
请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-09-26 15:25:03下载
- 积分:1
-
cuda语言实现向量相加
本程序是cuda语言实现向量相加的例子,通过这个例子可以学习cuda的基本语法格式,
- 2023-07-27 23:25:04下载
- 积分:1
-
基于OPENMP的矩阵相乘的程序
应用背景只是用来学习OPENMP编程的应用技巧,同时对初学者有所帮助,不过程序比较简单,谨慎学习下载,同时,希望学习openmp的朋友能够多多交流一下,相互学习帮助关键技术关键技术就是基于OPENMP的一个矩阵相乘的并行实现,然后使用了分块,用静态分块进行各线程并行处理,所用时间短,效率高,适合学一下
- 2022-08-04 09:23:19下载
- 积分:1
-
多目标遗传算法优化
研究多目标遗传算法的优化,包含遗传算法过程中涉及的的各个步骤,非常适合于研究遗传算法及对遗传算法进行多目标优化的同学
- 2022-01-25 17:35:18下载
- 积分:1
-
VB视屏聊天
通过存储选中开始结束为止,确定颜色,仙剑一个文件夹,之后删除将恢复健康的和健康和vkjdfnkjkjn;k独守空房军看见电脑;来看看了呢空间能看见你空间呢控件看来今年 看你空间呢
- 2022-12-07 06:20:02下载
- 积分:1
-
并行程序设计_三角函数并行化程序设计
1) 熟练掌握并行程序设计的基本方法;
2) 通过实验,了解并行程序设计的过程以及优越性;
3) 学会并行程序的算法分析;
4) 结合高等工程数学、分布式系统、云计算等相关课程知识解决简单的实际问题。
- 2022-03-01 04:29:27下载
- 积分:1
-
数字时钟
它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
- 2023-08-27 17:20:03下载
- 积分:1
-
avr2323 my test c emulador
avr test fast pdp emulador kokoko dehght fh fg hd fgdf fdgdf bf bdtnjrtb bsdfb fvtbrtn fd dvrv vdr bdt f yngfnhgnrtn trnrtn rtntrn
- 2022-02-04 03:35:22下载
- 积分:1