登录
首页 » 算法 » jsceg分词器源码

jsceg分词器源码

于 2022-03-07 发布 文件大小:17.41 MB
0 127
下载积分: 2 下载次数: 1

代码说明:

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch2。三种切分模式: (1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。 (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。4。(!New) 支持词库多目录加载. 配置lexicon.path中使用";"隔开多个词库目录.5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索,  jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.6。中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。7。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • WSN网络中的LEACH协议源码
    无线传感器网络中的LEACH协议,在MATLAB中仿真运行LEACH协议。一种基于分簇的协议,该协议利用本地簇头随机轮替 以均衡地分配网络中的传感器结点的能量负载。LEACH通过局部协调以保障动态网络的可测量性与健壮性,并将数据融合加入路由协议中以减少必须传递到基站的信息量。 仿真实验表明,相比传统路由协议,LEACH可以在能量消耗上达到高达八倍的减少。另外,LEACH允许在传感器结点中均匀地分布 能量消耗,在我们仿真的网络中使得有效的系统使用寿命增加了一倍
    2023-02-27 00:10:03下载
    积分:1
  • 三角形网格划分器
    三角形网格划分器-triangular mesh device
    2022-05-24 11:08:30下载
    积分:1
  • 人脸检测
    应用背景您好您好您好您好您好您好您好您好您好您好关键技术人脸跟踪人脸跟踪人脸跟踪人脸跟踪人脸跟踪人脸跟踪人脸跟踪
    2022-12-23 09:00:03下载
    积分:1
  • 基于矢量量化的手写体数字识别系统
    本算法中用来训练和测试的手写体数字均来自于60000张训练数字示例和MNIST数据库中的图像已经做过位置归一化等基本处理,即已经使手写体数字处于图像的中心位置,删除了众多干扰信息,为本实验的进行降低了难度。30000个训练集样本的和
    2022-01-26 01:07:50下载
    积分:1
  • 可以移动的石子合并
    资源描述 11079 可以移动的石子合并(必做) 时间限制:1000MS  内存限制:1000K 提交次数:0 通过次数:0 题型: 编程题   语言: G++;GCC;VC;JAVA Description 有n堆石子形成一行(a1,a2,…,an,ai为第i堆石子个数),现要将石子合并成一堆,规定每次可 选择至少2堆最多k堆移出然后合并,每次合并的分值为新堆的石子数。 若干次合并后,石子最后肯定被合并为一堆,得分为每次合并的分值之和。 现在求解将这n堆石子合并成一堆的最低得分和最高得分。 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报 打分 发表评论 暂无评论
    2022-10-07 16:35:03下载
    积分:1
  • 用树的思想求解素因数
    读过很多方法求解的首要因素,今天撞在树上想解决这个问题,定义 typedef 结构节点 {int 树节点数据结构节点 * pleft; 结构节点 * pright ;}节点,* pNode ;1,和我的想法是首先要判断这一数字是大于 2 的如果是少而 2 返回 2,如果是更多比 2 周期法官是否可以分解为两个数字相乘,如果不输出这个数字返回 3,如果大于 2 且可以分解为两个数字相乘是让这两个因素为此数目的左和右儿童跳周期时间复杂程度日志 (n)
    2022-01-26 04:42:39下载
    积分:1
  • GPS多径抑制
    根据多径信号的特点以及对导航定位精度的影响,利用一种能有效解决非线性非高斯问题的滤波算法-粒子滤波来估计多径信号 的时延参数。  针对传统的粒子滤波存在的粒子退化和贫化现象,将遗传算法嵌入到基本的粒子滤波框架的重采样步骤中,对其粒子滤波进行改进,既解决了粒子退化现象,也保持了粒子空间的多样性。 对于多径信号幅度的估计,利用了解决线性问题的最优估计-卡尔曼滤波。  
    2023-06-07 21:35:03下载
    积分:1
  • 自编的一个String类
    自编的一个String类- From arranges a String kind
    2023-05-04 08:20:03下载
    积分:1
  • g711
    g711-pcm的音频编码VHDL源代码-g711-pcm audio coding VHDL source code
    2022-07-15 04:33:18下载
    积分:1
  • hough椭圆拟合代码,非常好用
    资源描述椭圆拟合(高斯分解和奇异值分解(很准确)两种)
    2023-07-20 22:35:03下载
    积分:1
  • 696518资源总数
  • 105665会员总数
  • 6今日下载