欢迎来到天天文库
浏览记录
ID:36770732
大小:2.05 MB
页数:77页
时间:2019-05-15
《中文科技论文文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、厦门大学硕士学位论文中文科技论文文本分类研究姓名:陈频申请学位级别:硕士专业:系统工程指导教师:王周敬20060601摘要随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此,中文科技论文文本分类研究具有较高的理论研究价值和应用前景。本文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究。全文主要从预处理、特征提取和分类算法三大部分展开,重点研究了基于自然语言处理的特征提取和基于层次分类模型的分类算法。预处理方面,本文分为两个步骤:科技论文文本数据预
2、处理和中文分词处理。特征提取方面,分为文本特征表示和文本特征优化,而重点放在文本特征表示这一部分。在自然语言处理方面,主要建立了基于自然语言处理的特征提取模型。语法分析层面,本文提出一一种基于词性判断规则的组块分析策略,对自然语言进行“分而治之”的语法分析;语义层面,结合中文科技论文文本的强领域特征建立了一个领域概念树模型,并在此基础上进行了概念语义分析;语用层面,则在概念层上基于词汇间相似度和关联度,提出了一种语境分析方法。实验表明,在自然语言处理中,选择领域概念作为特征项,其宏平均下的E值为79.35%,微平均下的只值为88.00%。在分类算法方面,本论文提出了一
3、种新的层次分类模型,为分类算法建立了一个优良的模型依据。它的基本思想可以分成三个步骤:首先根据复杂特征集中的结构成分标记(组块标注)来分裂结构成分;然后对构成归并类别的结构成分进行分类处理;最后通过归并类别的相似度闽值来判断是否与下一个归并类别共同分析。实验表明,随着分类类别粒度的细化,采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于KNN、NB和SVM分类器更适合于中文科技论文文本的分类要求。关键词:自然语言处理;层次分类模型;分类算法AbstractWithincreasinglyrecognitionoftechnologyandsocietyd
4、evelopment,sciencedomainisorientedtopluralisticandmoderntrend.Inthisease,血eresearcherneedthehiigh—effect,completeandconvenientscienceinformationmoreurgentlythanever.Intheconformanceofagerequest,Chinesetechnologytextclassificationresearchtakesonthehi【ghtheoreticalvalueandappliedforegroun
5、d.ThispapercarriesthroughresearchbythenumbersinallusiontospecialstyleformatandlanguagecoloroftheChinesetechnologytext.Thewholepapermainlydevelopsinthreeaspectsofpretreatment,characterretrievalandclassificationarithmeticandemphasisontwoaspectscontainingnaturallanguageprocessingandclassif
6、icafionarithmeticbasedonbed—classificationmodel.Intheaspectofthepretreatment,thispapercontainstwoapproaches:theoneisbasictextdatapretreatment,andtheotherisChineseparticiple.Intheaspectofcharacterretrieval,thispaperconsistsofcharacterdenotationandcharacteroptimize.Butemphasisputinthechar
7、acterdenotation.Intheaspectofnaturallanguageprocessing,thispapersetupanewnaturallanguageprocessingmodel.Inthesyntax,thispaperputsforwardanewchunkanalysisstrategybasedontheestimateruleofthepartofspeechinordertoprogressthephraselogicalanalysisofthedivideandrule;inthesemantics,int
此文档下载收益归作者所有