登录
首页 » 并行计算 » 基于Hadoop的文本分类(1)-文本预处理&文本表示

基于Hadoop的文本分类(1)-文本预处理&文本表示

于 2022-03-01 发布 文件大小:10.67 MB
0 232
下载积分: 2 下载次数: 1

代码说明:

资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • GPU上CUDA实现N-Body
    应用背景在GPU上实现N-BODY算法。N-Body模拟问题覆盖了自然科学的很多领域,从宇观的天体物理到宏观的流体动力学,直至微观的分子动力学。例如通过研究围绕着银河系的暗物质晕轮的形状和动力学特征来探索银河系形成过程,需要模拟数百万的星体和暗物质间的作用。现代生物物理学和化学中的许多研究,如细菌或植物体的光合作用膜处发生的光能向化学能的转化,染色体中DNA和蛋白质分子的描述,都需要模拟上千万的原子核分子的作用。关键技术N-Body问题的两个重要特征是: 第一点.计算规模大,因为无论是宇观的天体尺寸还是微观的分 子尺度.都包含了大量的粒子,粒子的规模大到数百万、千万。由于在 系统中任意的两个粒子问都存在着相互作用,因此商接计算粒子间的 相互作用的量级就是O(N^2); 第二点.系统是动态变化的。为了反应系统的具体变化.尤其是在微观分子结构中.要求时间步足够小。这两个特征决定了计算机模拟 时巨大的计算量。这对于任何扁性能的单台计算机来说都是一个很难突破的瓶颈.因此采用并行汁算是解决N-Body问题的必然选择。主要涉及数据划分和线程任务划分实现。
    2022-12-08 07:20:03下载
    积分:1
  • 数字时钟
    它是一个基于8051的频率计数器,可以用作学习工具。很有用的开始。
    2023-08-27 17:20:03下载
    积分:1
  • 示波器代码
    示波器的源代码,效果不错的,dlo1w1dsc hhjhsdf sfdssd  fsdhsdfhsdj eewrew erewrewr dsfefh  dsdewh
    2022-07-07 20:07:57下载
    积分:1
  • metis-3.0 partitioning unstructured graphs, partitioning meshes, and computing fill-reducing order
    Copyright 1997, Regents of the University of Minnesota. METIS was written by George Karypis (karypis@cs.umn.edu) Introduction ------------------------------------------------------------ METIS is a software package for partitioning unstructured graphs, partitioning meshes, and computing fill-reducing orderings of sparse matrices. The documentation of METIS can be found in the Doc/manual.ps file. METIS is written in ANSI C and should compile on Unix systems that have a ANSI C compiler. It has been extensively tested on the following architectures:    AIX    SunOS    Solaris    IRIX    Unicos    Linux    HP-UX    FreeBSD
    2022-02-20 19:44:54下载
    积分:1
  • 异步PHP代码实现
    一种异步实现php调用的方法,欢迎下载,希望对大家能有帮助。谢谢大家的支持!
    2022-02-26 08:58:13下载
    积分:1
  • PI值的处理
    A console application that estimates the value of PI using a variety of both serial and parallel implementations, the latter done with both PLINQ and the Parallel class.
    2022-01-22 07:33:28下载
    积分:1
  • DC-DC convertor
    基于dsp的DC-DC升压变换器MOSFET.作为根据目前的情况,世界各地都存在大量的电力短缺,特别是像印度这样的国家,电网转移问题也很严重。化石燃料的发电量越来越少,一些化石燃料的例子是(煤、褐煤、石油和天然气),因此大多数人都在寻找绿色或可再生能源,如太阳能、风能、生物质能、潮汐能等,这些能源不会对环境造成任何污染。本文还对光伏板进行了仿真分析,并对高效boost变换器进行了设计和仿真。尽管太阳能系统是可再生能源,但与风能等其他可再生能源相比,它并没有连接到更多的电网。需要采取很多必要的措施,其中一个重要的因素就是需要高效率的boost变换器
    2022-04-12 03:11:21下载
    积分:1
  • 存钱银
    一套相对完整的JSP毕业论文——教学管理系统,用JSP开发与实现动态网站的好范例,描述了J2EE的相关技术,比如Servlet,JSP, 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-01-26 07:00:12下载
    积分:1
  • I2C driver
    I2C总线驱动,8位单片机适用。 在总线控制,并下发指令是,效率好,另外,此程序在keil编译器中已经编译通过。
    2022-01-31 04:15:49下载
    积分:1
  • 696518资源总数
  • 106235会员总数
  • 12今日下载