IKAnalyzer中文分词器V3.1.5使用手册

IKAnalyzer中文分词器V3.1.5使用手册

ID:37557376

大小:396.47 KB

页数:14页

时间:2019-05-25

IKAnalyzer中文分词器V3.1.5使用手册_第1页
IKAnalyzer中文分词器V3.1.5使用手册_第2页
IKAnalyzer中文分词器V3.1.5使用手册_第3页
IKAnalyzer中文分词器V3.1.5使用手册_第4页
IKAnalyzer中文分词器V3.1.5使用手册_第5页
资源描述:

《IKAnalyzer中文分词器V3.1.5使用手册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、IKAnalyzer中文分词器V3.X使用手册目录1.IKAnalyzer3.0介绍........................................................................................................22.使用指南..............................................................................................................................43.词表扩展.

2、..........................................................................................................................114针对solr的分词器应用扩展.........................................................................................135.关于作者...................................................

3、........................................................................141.IKAnalyzer3.0介绍IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。1.1IKA

4、nalyzer3.0结构设计1.2IKAnalyzer3.0特性�采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。�采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。�优化的词典存储,更小的内存占用。支持用户词典扩展定义�针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。1.3分词效果示例文本原文1:IKAnaly

5、zer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。分词结果:ikanalyzer

6、是

7、一个

8、一

9、个

10、开源

11、的

12、基于

13、java

14、语言

15、开发

16、的

17、轻量级

18、量级

19、的

20、中文

21、分词

22、工具包

23、工具

24、从

25、2006

26、年

27、12

28、月

29、推出

30、1.0

31、版

32、开始

33、ikanalyzer

34、已经

35、推出

36、出了

37、3

38、个大

39、个

40、版本文本原文2:永和服装饰品有限公司分词结果:永和

41、和服

42、服装

43、装饰品

44、装饰

45、饰品

46、有限

47、公司文本原文3:作者博客:linliangyi2007.javaeye.com电子邮件:linli

48、angyi2005@gmail.com分词结果:作者

49、博客

50、linliangyi2007.javaeye.com

51、linliangyi

52、2007

53、javaeye

54、com

55、电子邮件

56、邮件地址

57、linliangyi2005@gmail.com

58、linliangyi

59、2005

60、gmail

61、com2.使用指南2.1下载地址GoogleCode开源项目:http://code.google.com/p/ik-analyzer/GoogleCodeSVN下载:http://ik-analyzer.googlecode.com/svn/trunk/2.2安装部署IKAnalyzer

62、安装包包含:1.《IKAnalyzer中文分词器V3.X使用手册》(即本文档)2.IKAnalyzer3.X.jar3.IKAnalyzer.cfg.xml它的安装部署十分简单,将IKAnalyzer3.X.jar部署于项目的lib目录中;IKAnalyzer.cfg.xml文件放置在代码根目录(对于web项目,通常是WEB-INF/classes目录,同hibernate、log4j等配置文件相同)下即可。2.3Lucene用户快速入门代码样例IKAnalyzerDemo/***IKAnalyzerDemo*@paramargs*/importja

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。