欢迎来到天天文库
浏览记录
ID:35057335
大小:4.47 MB
页数:69页
时间:2019-03-17
《基于java的行业属性关键词扩展方法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、I>朵击糾成*葦UNIVERSITYOFELECTRONICSCIENCEANDT巨CMNOLOGYOFCMINA业学位硕±学位论文I专MASTERTHESISFORPROFESSIONALDEGREE齡^^?|.'’-^邸:-1巧;?^娜带?论文题目基于MVA的行业属性关键词扩展方法设计与实现专业学位类别工程硕壬学号201291040407作者姓名刘豫川‘指导教师曾蕉青教授独创性声明本人声明所呈交的学位论文是本人在导师指导下
2、进行的研究工作及取得的研究成果。据我所知,除了文中特别加标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我…同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名心:日期:年月日(论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全,可部或部分内容编入有关数据库进行检
3、索采用影印、缩印或扫描'汇。等复制手段保存、编学位论文(保密的学位论文在解密后应遵守此规定)作者签名:导师签名;:日日期年月分类号密级注1UDCJAVA(题名和副题名)(作者姓名)指导教师(姓名、职称、单位名称)申请学位级别专业学位类别工程领域名称提交论文日期2016.10.08论文答辩日期2016.11.26学位授予单位和日期20161223答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。THEDESIGN&IMPLEMENTATIONOFINDUSTRYATTRIBUTEKEYWORDEXPANSIONMETHODBASE
4、DONJAVAAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:LiuYuchuanSupervisor:ZengBaoqingProf.School:SchoolofPhysicalElectronics摘要摘要伴随因特网的快速发展及计算机越来越为大众所认可,信息随之显现出迅速膨胀的态势。信息增长所呈现出的过量形式,随之也引发了相应负面影响:大众面对着庞杂的信息,很难攫取自身所需精准的资料。怎样自众多数
5、据中抽取有价值的信息是当前研究的热点。信息抽取正是在这种背景下应运而生的。属性是各异种类事物的特点,也是理解信息的关键点,属性抽取具有重要的实际意义与广阔的应用前景,已经成为信息抽取领域的研究热点,吸引了大量学者展开广泛而深入的研究。虽然取得了一定的进展,但目前的属性抽取方法不可避免的存在对使用者要求高,可移植性不高,正确率与召回率低,抽取效率低下等诸多问题。一方面,现有的文本信息抽取有基于规则的方法和基于统计的方法。基于规则的方法无需运用众多标注语料,进而将众多工作精简,但这种信息抽取方法的正确率及召回率完全取决于规则的设定,需要丰富的经验与先验知识。基于统计
6、的方法则需要先进行大量语料的学习,再在此基础上制定信息抽取策略,这种信息抽取方法的正确率及召回率则需要取决于语料的丰富程度与语料信息所涉及的领域范围。另一方面,属性关键词这一触发词为属性描述的重要特征,是制定规则的必要条件。汉语的表达方式灵活多样,描述同一个属性可能使用多个词,属性词语存在的字面不同点引发了分散的属性值。现有关键词拓展算法均采用基于现有词语库来对关键词进行扩展的原理,该方法依赖于所用词语库的完备程度,而且缺乏对现有语料库信息的有效利用。本文针对以上问题,从属性关键词扩展方法、信息抽取方法两个方面展开研究。首先,借助开源爬虫对诸如百度百科、互动百科
7、及维基百科这些互动百科条目予以下载。这一领域的百科联系的类别众多,有关种类的条目中蕴含着丰富的属性信息。基于网络百科进行属性关键词扩展研究对于属性抽取具有重要的意义。其次,提出一种基于现有词语库同时利用现有语料资料中词语相关程度相结合的属性关键词拓展算法,并针对快消品类别,实现了属性关键词扩展。然后,在这种属性关键词拓展算法的基础上提出一种半自动化的自学习信息抽取方法,在保证准确率与召回率的同时极大的减少了信息提取的工作量。最后,采用了试验的方式对方法的有效性进行了验证。从而最终实现了基于百科数据对快消品属性信息准确、高效的进行抽取的目的。关键词:信息抽取,属性
8、关键词,同义词词典,模式
此文档下载收益归作者所有