-
jsceg分词器源码
jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch2。三种切分模式: (1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。 (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。4。(!New) 支持词库多目录加载. 配置lexicon.path中使用";"隔开多个词库目录.5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.6。中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。7。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg
- 2022-03-07 04:18:17下载
- 积分:1
-
插植算法 拉格郎日插植
插植算法 拉格郎日插植-Brachytherapy count Radio Lang Day Brachytherapy
- 2022-03-15 03:40:27下载
- 积分:1
-
打破数字
此代码可用于打破数字。它的一个例子: 让说,用户输入"561365"作为输入,现在程序将放置在数组中的每个位数的这一数字。所以以后你可以做任何需要使用此 number 位数的操纵。
- 2022-08-21 13:16:20下载
- 积分:1
-
四皇后问题,八皇后问题,特洛比方块等等一些数学问题算法实现...
四皇后问题,八皇后问题,特洛比方块等等一些数学问题算法实现- Four empresses questions, eight empresses questions, Turlogh
and so on some mathematics question algorithms realizes compared to
the block
- 2023-03-13 08:45:04下载
- 积分:1
-
基于全局直方图优化的图像去雾算法的实现
基于全局直方图优化的图像去雾算法的实现,用matlab编写,可以直接运行,里面自带有测试图像
- 2023-04-16 01:05:03下载
- 积分:1
-
大数运算库
大数运算库-Treasury operations of large numbers
- 2022-02-12 09:54:57下载
- 积分:1
-
等离子体粒子模拟
等离子体PIC模拟-PIC simulation of plasma
- 2022-01-26 02:12:51下载
- 积分:1
-
模拟鼠标. 模拟鼠标.
模拟鼠标. 模拟鼠标.-Simulation of the mouse. Simulated mouse. Simulated mouse.
- 2022-08-26 11:03:58下载
- 积分:1
-
C实现RS编码
用C实现RS码纠错仿真
RS码的编码程序 编码效率高,且经实际验证符合RS纠错码的要求-RS code using C realize simulation RS
error correction code encoding procedure coding efficient and practical
to verify compliance with the requirements of RS error-correcting codes
- 2023-05-05 14:10:03下载
- 积分:1
-
可以进行无限制的整数计算
可以进行无限制的整数计算-can unrestricted rounding
- 2022-02-14 01:33:35下载
- 积分:1