登录
首页 » 算法 » jsceg分词器源码

jsceg分词器源码

于 2022-03-07 发布 文件大小:17.41 MB
0 53
下载积分: 2 下载次数: 1

代码说明:

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch2。三种切分模式: (1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。 (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。4。(!New) 支持词库多目录加载. 配置lexicon.path中使用";"隔开多个词库目录.5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索,  jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.6。中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。7。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 两个矩阵相乘的源程序
    两个矩阵相乘的源程序- Two matrices multiplication source program
    2022-04-28 00:36:00下载
    积分:1
  • 用C++写3*3的方程组的求解
    这是一个基于列主元高斯消去法求3*3方程组的程序。只需确定方程组未知数的系数和等号右边的数,就可以算出最终的结果。结果精度高达8位小数。
    2023-07-31 09:30:04下载
    积分:1
  • 对实矩阵进行奇异分解的,能够满足精度的要求
    对实矩阵进行奇异分解的算法,能够满足精度的要求-Real singular matrix decomposition algorithms, to meet the requirements of precision
    2022-02-02 23:55:32下载
    积分:1
  • 活动段检测
    资源描述对于肌电信号的一个活动段检测算法,可以准确地判断出信号的起始点和终止点
    2022-03-06 08:22:07下载
    积分:1
  • 《数字滤波与卡尔曼滤波》本人感觉写的比较好的卡尔曼滤波图书,...
    《数字滤波与卡尔曼滤波》本人感觉写的比较好的卡尔曼滤波图书,- Digital Filter and Kalman Filter I feel better to write the Kalman filter books,
    2022-02-14 11:37:33下载
    积分:1
  • knnC实现
    KNN最邻近算法在c上的实现。输入样本可以根据已经训练好的模型将该词分类,或者重新训练样本,将该新输入的样本进行分类。代码是在C语言上完成的。
    2022-01-21 00:19:45下载
    积分:1
  • C语言基础学习
    资源描述此代码适合C语言的初学者,可以帮助初学者在学习理论知识的同时不断实践完善自己的动手能力,并且为后续的C语言学习打下坚实的基础,希望大家多多分享一些有用的代码,别搞那些杂碎的东西,毫无用处
    2022-02-06 23:52:51下载
    积分:1
  • 代数多项式曲线拟合与最小二乘PDF文档
    代数多项式曲线拟合与最小二乘法PDF文档-Algebraic polynomial curve fitting with least square method PDF documents
    2022-05-07 04:15:45下载
    积分:1
  • 字符串周期
    如果一个字符串可以由某个长度为k的字符串重复多次得到,我们说该串以k为周期。例如,abcabcabcabc以3为周期(注意,它也可以6和12为周期,结果取最小周期3)。字符串的长度小于等于100,由调用者保证。详细描述:接口说明原型:int GetMinPeriod(char *inputstring);输入参数:char * inputstring:字符串返回值:
    2023-05-31 15:20:04下载
    积分:1
  • 实用欧拉实现常微分方程的离散化!是非常经典的
    实用欧拉算法实现常微分方程的离散化!是非常经典的算法-practical Euler algorithm Ordinary Differential Equations discrete! It is very classic algorithm! !
    2023-05-07 13:40:02下载
    积分:1
  • 696524资源总数
  • 103938会员总数
  • 55今日下载