欢迎来到天天文库
浏览记录
ID:35068092
大小:5.37 MB
页数:77页
时间:2019-03-17
《基于电商数据和用户行为的信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、■朵击才寺泼*葦UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINAI^硕±学位论文MASTERTHESIS接尹 ̄?。"心—、■K?輔这色_-!L论文题目基于电商数据和用户行为的信息抽取学科专业计算机软件与理论学号201321060252作者姓名甘骇指导教师周涛教授独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加标注和致谢的地方夕h,论文中不包含其他人
2、已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。"^敗八仁^^日作者签名:為日期:年月论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可将学位论文的全,可部或部分内容编入有关数据库进行检索[^采用影印、缩印或扫描等复制手段保存、汇编学位论文。作(者保签密的学位论文在解密后应遵守此
3、规定)名:後导师签名:间靖-^日期;5^/《年6月巧日分类号密级注1UDC学位论文基于电商数据和用户行为的信息抽取(题名和副题名)甘骏(作者姓名)指导教师周涛教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.03.28论文答辩日期2016.05.19学位授予单位和日期电子科技大学2016年6月27日答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号INFORMATIONEXTRACTIONBASEDDATAANDUSERBEHAVIOROFE-COMMERCEAMasterThesisSub
4、mittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputersoftwareandtheoryAuthor:GanJunAdvisor:ProfessorZhouTaoSchool:SchoolofComputerScience&Engineering摘要摘要随着互联网和电子商务在中国的爆炸式发展,以阿里巴巴为首的电子商务公司,正在产生海量的数据并吸引数以亿计的用户。换言之,大数据时代正在步步逼近,面对海量的数据,怎样提高数据利用率,怎样提取用户最想要的,最有价值的信息是核心价值的问题。在电子
5、商务这块战斗在互联网产业最前沿的阵地上,尤其需要快速完成从数据到信息的转化。这就是本文要研究的信息抽取(informationextraction)问题,尤其专注于电子商务领域。现有的信息抽取技术主要包括命名实体识别(NamedEntityRecognition)和关系抽取(RelationExtraction)。命名实体识别现在主要有以下技术方法:基于规则和词典的方法、基于统计的方法、二者混合的方法等。其中基于规则和词典的方法,在有针对性的优化规则的基础上,准确率很高,但是人力成本较大,可复用和可扩展性不强,往往只能解决某些特定的应用场景。基于统计的方法准确率和召回率往往
6、不尽如人意,算法复杂度也较高,但是可扩展性强,进步空间很大,大量学者致力于改进数学统计模型,以达到更高的准确率和召回率,从而真正实现机器智能识别。经典的命名实体识别模型有HMM(隐马尔科夫模型),ME-HMM(最大熵隐马尔科夫模型),CRF(条件随机场)等。关系抽取是从海量语料中分析抽取命名实体之间的关系,比如地名与机构名之间的从属关系,物品名之间的相似关系,各种简称与全称之间的同义关系等。同时,信息抽取是一个应用性很强的领域,理论算法必须要形成系统实现,才能准确评定算法模型的效果。但是,现在流行的信息抽取系统有华盛顿大学领导开发的OPENIE系列软件包,只能应用于英文信息
7、抽取。现在迫切需要一种高效使用的中心信息抽取系统。本文的主要贡献为:1)介绍了经典的信息抽取模型,分别是命名实体识别领域的HMM,ME-HMM,CRF等,近义词关系抽取领域的词向量模型。同时还介绍了信息抽取任务常用的评价指标准确率,召回率和F值。2)基于经典的命名实体识别模型——隐马尔科夫模型做了针对于电子商务数据的优化,提出了一种基于词汇的隐马尔科夫模型(Lexical-HMM),提升了模型对于电商应用场景下,对于命名实体识别的准确率。对于近义词关系抽取,则提出了一种基于用户搜索和浏览行为的二部图模型,可以高效准
此文档下载收益归作者所有