中文语料库分类和检索的研究和实现

中文语料库分类和检索的研究和实现

ID:20644264

大小:7.81 MB

页数:50页

时间:2018-10-14

中文语料库分类和检索的研究和实现_第1页
中文语料库分类和检索的研究和实现_第2页
中文语料库分类和检索的研究和实现_第3页
中文语料库分类和检索的研究和实现_第4页
中文语料库分类和检索的研究和实现_第5页
资源描述:

《中文语料库分类和检索的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要中文语料库的分类与检索的研究对于语料库的管理和学习使用具有相当重要的意义。面对具有海量信息的语料库,人们不可能在短时间内对这些数据进行分类并获得其中所需要的内容,这迫切需要一种辅助工具来帮助人们发现、处理并管理这些信息。语料库的自动分类与检索研究就是为了满足这样一种需求而产生的。构建一个较为精确的语料库分类器需要各个环节的协同,l:t-.女N-i,)lI练语料的预处理、分类算法等,每个环节都会对分类结果产生影u向。语料库检索系统应该提供查询界面供学习者查询,并提供查询结果界面。本文研究发现,现有的语料库检索系统对于结果的显示都是集中的列

2、表显示,这样并不利于语料库学习者有效地利用语料。为了构建一个更为精确的语料库分类器和更有利于语料库学习者利用语料的检索系统,本文做了以下研究工作:1、改进特征权值算法。本文详细分析了特征处理过程中的特征权值算法,对TFIDF算法进行了深入地研究,发现TFIDF的不足之处,并结合相关文献,提出新的特征权值改进算法一基于文档分布的TFIDF算法。此算法引入了文档在类间的分布情况作为赋值依据:若包含某个特征t的文档在类间分布不均匀,I)lJJt是具有较好的类别区分度的,应该赋予较高权值,若分布非常均匀,I)IJJt不具有较好的类别区分度,应该赋予

3、较小权值。2、将反馈算法引入自动分类中。反馈是被控制的过程对控制机构的反作用,这种反作用影响系统的实际过程和结果。系统根据反馈信息对自身进行调整,使系统更加完善。现有的分类器只训练一次,分类性能就固定不变了,若要提升分类器的分类性能,可以对分类器进行反馈。本文提出在中文语料库自动分类器中加入反馈模块,使分类器通过加入新的反馈学习样本以提高自动分类器的分类性能。3、构建具有分类显示功能的中文语料库检索系统。分类的过程是将形态各异的同类事物归并起来,这看似一个很简单的行为,其实背后是一个复杂的思维过程,需要分析、综合、抽象、概括等一系列的思维活

4、动,从这个意义上说,分类能力的提升本身就是对思维能力的锤炼。比起一团糟的无头绪的信息,分类却使得人的思路变得开阔。分类如此重要,所以,语料库检索系统也应该可以把查询结果以分类的形式显示给用户,这样的显示才显得更有意义。本文提出构建一个具有分类显示的语料库检索系统,并在开源框架Lucene的基础上进行开发实现。最后,在本文构造的自动分类器上对上述两个算法进行实验,验证了算法对提高分类精确度的有效性。关键字:分类;检索;特征权值;TFIDF;反馈;KNN东南大学硕士学位论文AbstractTheresearchontheclassificati

5、onandretrievalofC:hineseCOrpushasimportantsignificanceonthecorpusmanagementandleaming.Facingcorpuswithmassiveinformation.itiSimpossibletoclassifythedataandobtaintherequiredinfonnationartificiallyfromthedatainashorttime.SOanauxiliarytOOliSneededtohelppeoplediscover.processa

6、ndmanagetheinformation.TheResearchonChinesecorpusclassificationandretrievalhasbeendonetomeetsuchdemand.Buildingamoreaccurateclassifierofthecopusrequiressynegyofallaspects,suchaspreprocessingoftrainingdataandclassificationalgorithms。whicheffectsonclassificationresults.Theco

7、pusretrievalsystemshouldprovidequeryinterfaceandresultsfortheleamers.Researchshowsthattheexistingretrievalsystemsdisplaytheresultsthroughcentralizedlist.whichiShelplessforleamerstousecopus.InordertObuildamoreprecisecopusclassifierandusefulretrievalsystemfortheleamers,thefo

8、llowingresearchhasbeendone:1.Ireprovethefeatureweightalgorithm.Analyzingthefeatureweighta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。