-
基于Hadoop的文本分类(1)-文本预处理&文本表示
资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等;
二、算法简介:
1、此项目是基于Hadoop2.6进行MapReduce并行开发;
2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证);
3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计);
4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html
5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
- 2022-03-01 12:43:10下载
- 积分:1
-
示波器代码
示波器的源代码,效果不错的,dlo1w1dsc hhjhsdf sfdssd fsdhsdfhsdj eewrew erewrewr dsfefh dsdewh
- 2022-07-07 20:07:57下载
- 积分:1
-
基于OPENMP的矩阵相乘的程序
应用背景只是用来学习OPENMP编程的应用技巧,同时对初学者有所帮助,不过程序比较简单,谨慎学习下载,同时,希望学习openmp的朋友能够多多交流一下,相互学习帮助关键技术关键技术就是基于OPENMP的一个矩阵相乘的并行实现,然后使用了分块,用静态分块进行各线程并行处理,所用时间短,效率高,适合学一下
- 2022-08-04 09:23:19下载
- 积分:1
-
Hadoop的相关资料
能让大家更好的理解Hadoop Map Reduce的内容,并讲解如何安装hadoop,如何在Linux环境下配置Hadoop和ssh等,以及Hadoop等在大数据处理方面的应用。
- 2022-02-04 06:07:18下载
- 积分:1
-
异步PHP代码实现
一种异步实现php调用的方法,欢迎下载,希望对大家能有帮助。谢谢大家的支持!
- 2022-02-26 08:58:13下载
- 积分:1
-
视频游戏的流体模拟,第 6 部分
差动速度算法器
这篇文章,在一系列,第六描述从根本上不同的方法计算速度从涡度,提出了在这些文章中的流体模拟的基石之一。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了涡粒子流体模拟与双向流体体之间的相互作用,在真正的时间运行。第五篇文章展示了如何获取和使用 CPU 使用率分析数据,优化,进一步并行化的代码,这样,它跑得更快。
这篇文章介绍一种求解速度从涡度的微分技术和与第 3 部分中所提出的积分 treecode 技术及其成果和业绩形成鲜明对比。泊松规划求解在这篇文章提出了一种比跑得快 treecode,但它的结果看起来不同的可能不那么令人满意。
涡旋速度,回顾
记得第二篇文章,您可以计算速度从涡度 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-02-05 03:15:32下载
- 积分:1
-
Hadoop 排序实现
Hadoop环境下一个简单的排序算法实现,测试数据集可以选用任何数字形式的text文本文件,包含源代码及利用ant进行jar包压缩的build.xml文件,希望对大家学习Hadoop有用处。
- 2023-08-13 20:45:04下载
- 积分:1
-
向量元素进行排序
该程序应用于并行排序算法Betchera。该算法属于一组并行排序的,这些算法之间的主要区别是并行(同时)作用于分选的数字数据集的可能性。class MyParSort Classvoid Setup 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
- 2022-03-23 19:22:26下载
- 积分:1
-
视频游戏的流体模拟,第 3 部分
涡粒子流体模拟
这篇文章,第三个在一系列,介绍了在 c + + 中使用谦虚,通常可用计算机硬件实时运行中实现流体模拟。第一篇文章总结了流体动力学 ;第二个调查流体模拟技术。
仿真这里介绍用途涡粒子,称为vortons由诺维科夫 (1983),来代表的流场和每一次的速度解决了。这种战术的使用 vortons 保留涡度无明显来源的扩散,可以模拟保留细鳞的详细信息。相比之下,其他流体模拟技术,使用原始变量 (速度和压力) 或网格数值弥漫性涡度,所以流动往往看起来厚和糖浆。当你看到这种模拟的结果时,你会惊讶于它保留了,多少议案详细考虑它跑得多快。
这种模拟也利用令人尴尬的并行算法的性质,并使用英特尔 ® 线程构建模块(英特尔 ® TBB) 跨越多个线程的工作。
在努力实现实时的流体运动,一些其他流体模拟利用图形处理单元 (GPGPU) 通用计算。
- 2022-04-29 19:04:05下载
- 积分:1
-
你好,我想让更多的积分
你好,我想让更多的积分
你好,我想让更多的积分
你好,我想让更多的积分
你好,我想让更多的积分
你好,我想让更多的积分
- 2022-06-21 21:32:45下载
- 积分:1