欢迎来到天天文库
浏览记录
ID:34804091
大小:2.72 MB
页数:57页
时间:2019-03-11
《浅论中文事件模式自动生成方法的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、苏州大学硕士学位论文中文事件模式自动生成方法的研究和实现姓名:李静月申请学位级别:硕士专业:计算机应用技术指导教师:朱巧明20100401中文事件模式自动生成方法的研究和实现中文摘要随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽取模式过程中的人工干预,本文设计并实现了一个基于句子聚类的中文信息抽取模式自动生成系统,主要包括三个模块:网页关键词抽取、句子聚类和模式自动生成。在网页关键词抽取阶段,本文探索了如何获取网页关键词,在考虑中文文本结构特征和中文词性特征的
2、基础上,提出了一种改进的TFIDF方法。实验结果表明该方法明显优于传统方法,能够抽取到令人满意的结果。在句子聚类阶段,本文对CURE算法进行了改进,用于句子聚类。通过对传统CURE算法的分析,根据事件的特征,对代表点选取和小类合并机制进行了改进。解决了CURE在代表点选取时容易把边缘孤立点作为代表点的问题,并且在小类合并时考虑了簇的整体特征,使簇的合并更加合理。本文最后阶段,从每一类中自动提取抽取模式,包括模式定义、特例模式生成和模式泛化三个步骤。首先通过对聚类后的句子集合进行统计,预测事件所描述的对象和主要内容,据此来确定待抽取项,并对句子集合中具有代表性的句子进行句法分析
3、,定义抽取模式;然后根据抽取模式从句子集合中迭代地选取特例模式;最后从语法和语义两个方面对特例模式进行泛化。实验结果表明,本系统减少了自动抽取模式过程中的人工干预,效果和性能基本达到了设计目标。关键词:关键词抽取,CURE聚类,事件聚类,模式自动生成,特例模式作者:李静月指导老师:朱巧明,李培峰AbstractResearchandImplementationonAutomaticallyextractChineseEventIEPatternResearchandImplementationonAutomaticallygenerateChineseEventIEPatte
4、rnWiththerapiddevelopmentofIntemet,theamountofinformationincreasesinallexplosiveway.Howtoquicklyextractwhatusersarereallyinterestedinfromavastofinformationpromotesthedevelopmentofinformationextraction.Pattern—matchingmethodiscommonlyusedininformationextraction,inordertoreducetheintervention
5、ofusersintheprocessofautomaticallyobtainingtheextractionpatterns.ThepaperdesignsandimplementsallautomaticallygenerateChineseeventinformationextractingpatternsystembasedonsentenceclustering,itcontainsthreemodules:HTMLkeywordsextraction,clusteringandpatternautomaticallygeneration.Inthestageof
6、keywordextracting,itfocusonhowtOgetthekeywordsofWebPagesandproposeallimprovedTFIDFmethodbasedonthestructureofChinesetextsandthepart-of-speechofChinesewords.TheexperimentalresultsshowthatOUrmethodCan—significantlyimprovetheperformancethanthatoftheclassicalmethod.Inthestageofsentenceclusterin
7、g,animprovedCUREalgorithmisproposedinthispaper.ByanalyzingthefeatureoftraditionalCUREalgorithm,andreferencingthefeaturesoftheevents.Itimprovestheselectingofrepresentativepointsandcategoriescombinedmechanism.Itsolvestheproblemthatisolatedpointsareusuallyr
此文档下载收益归作者所有