IKAnalyzer中文分词器V328使用手册.pdf

IKAnalyzer中文分词器V328使用手册.pdf

ID:52962513

大小:741.59 KB

页数:18页

时间:2020-04-03

IKAnalyzer中文分词器V328使用手册.pdf_第1页
IKAnalyzer中文分词器V328使用手册.pdf_第2页
IKAnalyzer中文分词器V328使用手册.pdf_第3页
IKAnalyzer中文分词器V328使用手册.pdf_第4页
IKAnalyzer中文分词器V328使用手册.pdf_第5页
资源描述:

《IKAnalyzer中文分词器V328使用手册.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、IKAnalyzer中文分词器V3.2使用手册目录1.IKAnalyzer3.X介绍......................................................................................................22.使用指南.......................................................................................................

2、.....................53.词表扩展..........................................................................................................................144.针对solr的分词器应用扩展......................................................................................

3、..165.关于作者..........................................................................................................................181.IKAnalyzer3.X介绍IKAnalyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结

4、合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.X则发展为面吐Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。1.1IKAnalyzer3.X结构设计1.2IKAnalyzer3.X特性采用了特有的“正吐迭代最细粒度切分算法“,具有80万字/秒的高速处理能力。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储

5、,更小的内存占用。支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser(作者吏血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。1.3分词效果示例IKAnalyzer3.2.8版本支持细粒度切分和最大词长切分,以下是两种切分方式的演示样例。文本原文1:IKAnalyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最大词长分词结果

6、:ikanalyzer

7、是

8、一个

9、开源

10、的

11、基于

12、java

13、诧言

14、开发

15、的

16、轻量级

17、的

18、中文

19、分词

20、工具包

21、从

22、2006

23、年

24、12

25、月

26、推出

27、1.0

28、版

29、开始

30、ikanalyzer

31、已经

32、推出

33、出了

34、3

35、个

36、大

37、版本最细粒度分词结果:ikanalyzer

38、是

39、一个

40、一

41、个

42、开源

43、的

44、基于

45、java

46、诧言

47、开发

48、的

49、轻量级

50、量级

51、的

52、中文

53、分词

54、工具包

55、工具

56、从

57、2006

58、年

59、12

60、月

61、推出

62、1.0

63、版

64、开始

65、ikanalyzer

66、已经

67、推出

68、出了

69、3

70、个

71、大

72、版本文本原文2:作者博客:linliang

73、yi2007.javaeye.com电子邮件:linliangyi2005@gmail.com最大词长分词结果:作者

74、博客

75、linliangyi2007.javaeye.com

76、电子邮件

77、linliangyi2005@gmail.com最细粒度分词结果:作者

78、博客

79、linliangyi2007.javaeye.com

80、linliangyi

81、2007

82、javaeye

83、com

84、电子邮件

85、linliangyi2005@gmail.com

86、linliangyi

87、2005

88、gmail

89、com文本原文3古田县城

90、关六一四路四百零五号最大词长分词结果:古田县

91、县城

92、城关

93、六一四

94、路

95、四百零五

96、号最细粒度分词结果:古田县

97、古田

98、县城

99、城关

100、六一四

101、六一

102、四

103、路

104、四百零五

105、四

106、百

107、零

108、五

109、号文本原文4曙光天阔I620r-G/A950r-F夏普SH9020C最大词长分词结果:曙光

110、天

111、阔

112、i620r-g

113、a950r-f

114、夏普

115、sh9020c最细粒度分词结果:曙光

116、天

117、阔

118、i620r-g

119、i

120、620

121、r

122、g

123、a950r-f

124、a

125、950

126、r

127、f

128、夏普

129、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。