浅议面向文本分类的中文文本挖掘技术研究及实现

浅议面向文本分类的中文文本挖掘技术研究及实现

ID:35154217

大小:1.75 MB

页数:66页

时间:2019-03-20

浅议面向文本分类的中文文本挖掘技术研究及实现_第1页
浅议面向文本分类的中文文本挖掘技术研究及实现_第2页
浅议面向文本分类的中文文本挖掘技术研究及实现_第3页
浅议面向文本分类的中文文本挖掘技术研究及实现_第4页
浅议面向文本分类的中文文本挖掘技术研究及实现_第5页
资源描述:

《浅议面向文本分类的中文文本挖掘技术研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文面向文本分类的中文文本挖掘技术研究及实现姓名:徐爱华申请学位级别:硕士专业:控制理论与控制工程指导教师:曾春年;王攀20040501武汉理工大学硕士学位论文中文摘要目前,随着信息技术的快速发展,特别是网络的普及,以文本形式表示的信息越来越多,如何在纷繁芜杂的信息海洋中找到自己需要的有用信息,具有广泛的应用背景和实用价值。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点,许多研究人员对文本挖掘技术进行了大量的研究,但这些研究大部分是在英文环境下进行的,对中文的研究却很少。本文对中文

2、文本挖掘技术进行了研究,在此基础上实现了一个文本分类系统。对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在陈桂林博士的分词方法基础上,设计和实现了一种快速分词算法。该方法将常用静态词典分为停用词和非停用词两类词,在建立词典时,将是否停用词作为词的一个特性。分词词典建立首字Hash表和词索引表二级索引,使得在加载词典时将词索引加入内存,可以采用二分法对文本进行最大匹配分词,并在分词的同时根据词的类别将对分类没有意义的停用词去掉,大大降低了特征维数。这种分词算法将分词和特征集缩减

3、结合在一起,从而减少了特征缩减过程而使时间复杂度大大降低。这种分词算法在实验中证明实用性强,效果好。文本分类是文本数据挖掘领域的一个重要研究方面,采用支持向量机对文本进行分类是当前的一个研究热点。本文设计和实现了一个基于支持向量机的实用文本分类系统,介绍了系统实现中的一些主要技术问题。文本表示采用向量空间模型,文本的评价方法采用了查准率和查全率,文本的特征抽取采用了一种互信息方法。分类算法是文本分类的关键,介绍了线性支持向量机和非线性支持向量机,从结构风险最小化原则得到了支持向量机优于其它方法的结论。在实现上,采用串并行相结合的学习方法对支持向

4、量机参数进行调整,利用工作集和缓存技术提高学习算法效率。最后采用支持向量机对文本进行分类,实验结果表明该系统查准率和查全率都较高。关键宇:文本挖掘;文本分类:分词;向量空间模型;支持向量机;武汉理工大学硕士学位论文ABSTRACT孵出thedevelopmentofIntemetandInformationTechnology,moreandmoreinformationhasbeenexpressedastext.Howtoobtaintheusefulinformationquicklyandefficientlyfromlargetext

5、isgettingmoreandmoreimportant.Textinformationminingisanewtechnologythatadoptsdataminingmethodtoretrieveimformationfromtext.Itisanewissuethatdrawsgreatinterest.Manypeopledoagreatofjobonit,butmostofthemfocusontheEnglishtextminingandfewofthempayattentiontoChinesetextmining.Inth

6、ethesis,weinvestigateChinesetextminingandonthebaseofthemaChinesetextcategorizationsystemhasbeenimplemented.ChinesephrasesegmentionisthepremissanddifficultythatweanalyzetheChinesetext.WedesignanewalgorithmforCMnesephrasesegmentionbytaggingthelexiconwithusefulwordsanduselesswo

7、rdsandbuildingtwolevelsindexforChinesethesaurusonthebaseofdoctorChenGuilin’smethod,whosetimecomplexityissuperiortothatofthecurrentalgorithms.Usingthismethod,wecanextractseveralsyntheticfeaturestostandfortheentffeformerinformationwell,andcanreducethedimensiongreatly.Inthispap

8、er,atextclassificationsystemisdesignedandimplemented.Itdiscussessomekeytech

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。