登录
首页 » 算法 » jsceg分词器源码

jsceg分词器源码

于 2022-03-07 发布 文件大小:17.41 MB
0 164
下载积分: 2 下载次数: 1

代码说明:

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch2。三种切分模式: (1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。 (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。4。(!New) 支持词库多目录加载. 配置lexicon.path中使用";"隔开多个词库目录.5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索,  jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.6。中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。7。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • stm32四轴飞行器源码
    应用背景四旋翼控制源码传感器读取 学习stm32,时钟控制,中断控制,对四轴感兴趣的朋友看看有很大帮助关键技术对遥控器数据读取,控制,可自行修改程序进行悬停 mpu6050读取四轴飞行器四路PWM输出自稳
    2022-01-25 20:01:32下载
    积分:1
  • 用VC实现解线性规划中的单纯形问题.
    用VC实现解线性规划中的单纯形法问题. -with VC solution of the linear programming problem simplex method.
    2022-10-06 21:40:03下载
    积分:1
  • 南理工硕博上机题经典36题
    从历年南理工硕博上机题中选出具有代表性的36题,让你提前熟悉南理工硕博上机。南理工硕博上机占60分,面试40分。所以如果想保硕博的话,上机是很重要的
    2022-07-23 03:35:57下载
    积分:1
  • segy文件读写
    segy文件读写,读取segy文件数据。C语言编写,简单易懂,对新手非常有帮助的代码。包括傅里叶FFT源程序
    2023-08-08 08:55:04下载
    积分:1
  • 虹膜识别程序
    主要完成了在虹膜识别中的虹膜定位功能,采用了动态轮廓模型(ACTIVE CONTOUR MODEL)-一个学生的毕业设计,支持开源-Mainly completed in the iris recognition function of the iris location, using a dynamic contour model (ACTIVE CONTOUR MODEL)- a student
    2023-07-13 09:15:04下载
    积分:1
  • 非线性放大器对发射信号的影响,与调制方式密切相关。不同的调制方式,所得到的时域波形是不同的,如用于欧洲移动通信的GSM制式,该制式采用了高斯滤波的最小偏移键控(...
    非线性放大器对发射信号的影响,与调制方式密切相关。不同的调制方式,所得到的时域波形是不同的,如用于欧洲移动通信的GSM制式,该制式采用了高斯滤波的最小偏移键控(GMSK),是一种相位平滑变化的恒定包络的调制方式,因此可以用非线性放大器来放大,不存在包络失真问题,也不会因为频谱再生而干扰邻近信道。 -Non-linear amplifier on the transmit signal of the impact is closely related with the modulation method. Different modulation methods, the resulting time-domain waveforms are different, such as for the European GSM mobile communications standard, the standard use of Gaussian minimum shift keying filter (GMSK), is a smooth change in the phase constant envelope modulation, so you can use non-linear amplifier to amplify, there is no envelope distortion, nor because of spectral regrowth and adjacent-channel interference.
    2022-01-31 04:18:00下载
    积分:1
  • 用matlab编写的线性规划之单纯型方用来求解一些简单的线性规划问题...
    用matlab编写的线性规划之单纯型方法用来求解一些简单的线性规划问题-using Matlab prepared by the linear planning simple method for solving some simple linear programming problem
    2022-10-16 09:30:03下载
    积分:1
  • 定点化fft变换
    快速傅里叶变换的算法,由于浮点数在计算机中运算速度要低于整型,本程序在fft快速变换的基础上,将程序转换为定点运算,进一步提高速度。
    2023-02-13 07:05:03下载
    积分:1
  • 一个用C语言写的FFT,经测试,效果很好
    一个用C语言写的FFT算法,经测试,效果很好-More use of a FFT algorithm C
    2023-06-01 22:50:03下载
    积分:1
  • 多模式匹配
    通信基础应用中的关键字过滤,多模式匹配算法整理。该算法为精确匹配,如匹配字段为用户的uri,对于用户数据中的uri内容,对其进行多模式匹配算法,可以很快找到该uri的特征(是什么类型的网站,网站名称,所属位置等)
    2022-02-01 20:03:27下载
    积分:1
  • 696518资源总数
  • 106222会员总数
  • 14今日下载