ikanalyzer中文分词器v2012使用手册

ikanalyzer中文分词器v2012使用手册

ID:5374294

大小:828.15 KB

页数:16页

时间:2017-12-08

ikanalyzer中文分词器v2012使用手册_第1页
ikanalyzer中文分词器v2012使用手册_第2页
ikanalyzer中文分词器v2012使用手册_第3页
ikanalyzer中文分词器v2012使用手册_第4页
ikanalyzer中文分词器v2012使用手册_第5页
资源描述:

《ikanalyzer中文分词器v2012使用手册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、IKAnalyzer中文分词器V2012使用手册目录1.IKAnalyzer2012介绍..................................................................................................22.使用指南......................................................................................................

2、..................53.词表扩展......................................................................................................................124.针对solr的分词器应用扩展......................................................................................145.

3、关于作者......................................................................................................................161.IKAnalyzer2012介绍IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和

4、文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。1.1IKAnalyzer2012结构设计1.2IKAnalyzer2012特性采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;在系统环境:Core2i73.4G双核,4G内存,window764位,SunJDK1.6

5、_2964位普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。1.3分词效果示例IKAnalyzer2012版本支持细粒度切分和智能切分,以下是两种切分方式的演示样例。文本原文1:IKAnalyz

6、er是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。智能分词结果:ikanalyzer

7、是

8、一个

9、开源

10、的

11、基于

12、java

13、语言

14、开发

15、的

16、轻量级

17、的

18、中文

19、分词

20、工具包

21、从

22、2006年

23、12月

24、推出

25、1.0版

26、开始

27、ikanalyzer

28、已经

29、推

30、出了

31、3个

32、大

33、版本最细粒度分词结果:ikanalyzer

34、是

35、一个

36、一

37、个

38、开源

39、的

40、基于

41、java

42、语言

43、开发

44、的

45、轻量级

46、量级

47、的

48、中文

49、分词

50、工具包

51、

52、工具

53、包

54、从

55、2006

56、年

57、12

58、月

59、推出

60、1.0

61、版

62、开始

63、ikanalyzer

64、已经

65、推出

66、出了

67、3

68、个

69、大

70、版本文本原文2:张三说的确实在理智能分词结果:张三

71、说的

72、确实

73、在理最细粒度分词结果:张三

74、三

75、说的

76、的确

77、的

78、确实

79、实在

80、在理文本原文3公路局正在治理解放大道路面积水问题智能分词结果:公路局

81、正在

82、治理

83、解放

84、大道

85、路面

86、积水

87、问题最细粒度分词结果:公路局

88、公路

89、路局

90、正在

91、治理

92、理解

93、解放

94、放大

95、大道

96、道路

97、路面

98、面积

99、积水

100、问题文本原文4据路透社报道,印度尼西亚社会事务部

101、一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。智能分词结果:据

102、路透社

103、报道

104、印度尼西亚

105、社会

106、事务部

107、一

108、官员

109、星期二

110、29日

111、表示

112、日

113、惹

114、市

115、附近

116、当地时间

117、27日

118、晨

119、5时

120、53分

121、发生

122、的

123、里氏

124、6.2级

125、地震

126、已经

127、造成

128、至少

129、5427人

130、死亡

131、20000

132、余人

133、受伤

134、近

135、20

136、万人

137、无家可归最细粒度分词结果:据

138、路透社

139、路透

140、社

141、报道

142、印度尼西亚

143、印度

144、尼

145、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。