登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 227
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 任务调度
    这是一份具有异构多核计算环境下的任务调度,计算异构环境下的最小makespan,适合研究并行计算的同学学习
    2022-02-06 06:14:35下载
    积分:1
  • VB视屏聊天
    通过存储选中开始结束为止,确定颜色,仙剑一个文件夹,之后删除将恢复健康的和健康和vkjdfnkjkjn;k独守空房军看见电脑;来看看了呢空间能看见你空间呢控件看来今年 看你空间呢
    2022-12-07 06:20:02下载
    积分:1
  • 你好,我想让更多的积分
    你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分 你好,我想让更多的积分
    2022-06-21 21:32:45下载
    积分:1
  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • HADOOP3使用开发教程
    hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。 1. hadoop common:为其他项目提供基础设施 2. HDFS:分布式的文件系统 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-09-26 15:25:03下载
    积分:1
  • 细胞生命的模拟化
    This application provides an implementation of Conway’s Game of Life, using the Parallel class to parallelize the processing of the cellular automata.
    2022-06-29 16:39:03下载
    积分:1
  • OMPI编译器
    OMPI编译器 用于OPENMP的开源C编译器 上传1.2.2版本 请在LINUX环境下使用
    2023-06-19 07:10:04下载
    积分:1
  • GPU上CUDA实现N-Body
    应用背景在GPU上实现N-BODY算法。N-Body模拟问题覆盖了自然科学的很多领域,从宇观的天体物理到宏观的流体动力学,直至微观的分子动力学。例如通过研究围绕着银河系的暗物质晕轮的形状和动力学特征来探索银河系形成过程,需要模拟数百万的星体和暗物质间的作用。现代生物物理学和化学中的许多研究,如细菌或植物体的光合作用膜处发生的光能向化学能的转化,染色体中DNA和蛋白质分子的描述,都需要模拟上千万的原子核分子的作用。关键技术N-Body问题的两个重要特征是: 第一点.计算规模大,因为无论是宇观的天体尺寸还是微观的分 子尺度.都包含了大量的粒子,粒子的规模大到数百万、千万。由于在 系统中任意的两个粒子问都存在着相互作用,因此商接计算粒子间的 相互作用的量级就是O(N^2); 第二点.系统是动态变化的。为了反应系统的具体变化.尤其是在微观分子结构中.要求时间步足够小。这两个特征决定了计算机模拟 时巨大的计算量。这对于任何扁性能的单台计算机来说都是一个很难突破的瓶颈.因此采用并行汁算是解决N-Body问题的必然选择。主要涉及数据划分和线程任务划分实现。
    2022-12-08 07:20:03下载
    积分:1
  • Hadoop的相关资料
    能让大家更好的理解Hadoop Map Reduce的内容,并讲解如何安装hadoop,如何在Linux环境下配置Hadoop和ssh等,以及Hadoop等在大数据处理方面的应用。
    2022-02-04 06:07:18下载
    积分:1
  • 视频游戏的流体模拟,第 5 部分
    性能分析与优化 这篇文章,在一系列,第五描述的性能分析和优化的流体模拟,提出了一种在第三和第四条款中。第一篇文章总结了流体动力学 ;第二个调查流体仿真技术 ;和第三和第四次提出了一个旋涡粒子流体模拟与双向流体体之间的相互作用,它运行在真正的时间。这篇文章利用另一个功能的英特尔 ® 线程构建模块 (英特尔 ® TBB) 将更多的工作分散到多个线程。这篇文章描述 CPU 使用情况分析过程,并使用该信息来优化和进一步并行化的代码,使其运行得更快。 性能分析和优化本文中描述的过程中的许多镜子中所述的程序软件优化食谱。这一过程从开始创建基准 — — 一大块的代码用来量化正在优化算法的性能。其余的过程需要迭代上的三个步骤: 要找出所谓的"热点",应用程序在哪里花费其大部分时间的配置文件。 探讨为什么热点会消耗很多时间的详细信息。 修改,试图让它更快的代码。 将这些步骤应用于流体模拟应用程序在前两篇文章中提出了这条记载。 相关的文章 流体模拟视频游戏 (第1部分) 流体模拟视频游戏 (第 2 部分) 流体模拟视频游戏 (第 3 部分) 流体模拟视频游戏 (第 4 部分) 流体模拟视频游戏  (第 5 部分) 流体
    2022-05-18 08:33:08下载
    积分:1
  • 696518资源总数
  • 106161会员总数
  • 5今日下载