欢迎来到天天文库
浏览记录
ID:34955106
大小:1.56 MB
页数:53页
时间:2019-03-15
《面向电商领域的关键词提取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文(工程硕士)面向电商领域的关键词提取技术研究RESEARCHONKEYWORDSEXTRACTIONTECHNIQUESFORE-COMMERCE樊继康哈尔滨工业大学2018年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文面向电商领域的关键词提取技术的研究硕士研究生:樊继康导师:秦兵教授副导师:王志威工程师申请学位:工程硕士学科:软件工程所在单位:计算机学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:621.3Dissertationfo
2、rtheMasterDegreeinEngineeringRESEARCHONKEYWORDSEXTRACTIONTECHNIQUESFORE-COMMERCECandidate:FanJikangSupervisor:Prof.QinBingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofComputerScienceDateofDefence:June,2018Degree-Conferring-Institution:Ha
3、rbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要关键词提取问题在自然语言处理中是一个十分重要的课题。而关键词提取技术可以帮助人们从海量的信息中快速找到重点,在网络信息爆炸的今天,有着非常重要的作用。面向电商领域的关键词提取技术的研究,目的是提取出商品标题中的关键词,相对于普通的关键词提取问题,其特点也是难点之一在于电商标题中的关键词往往是由多个词组成的复合词(例如“电视遥控器”)。作为面向电商领域关键词提取技术研究的关键一步,本文首先建立了相当规模的电商领域相关的语料库。然后依赖于我们所建立的语料库,实现了中文关键词提取相关的Te
4、xtrank算法与基于LSTM分类模型的关键词提取方法。后者能使机器自动学习到关键词的特征,从而使我们避免了繁琐的特征工程。此外,利用LSTM构建神经网络层次,能更好的利用词语的语义信息。实验证明,基于LSTM分类模型的关键词提取方法的效果对于电商领域的关键词提取工作有较好的效果。本文还重点研究了基于RNN序列标注模型的关键词提取算法。该算法将商品标题经过分词后的得到的词序列输入到模型中,最后输出每个词成为关键词的概率。考虑到LSTM相对RNN的优越性,以及双向LSTM可以更好利用上下文信息的能力,我们对模型进行改进,实现了基于BiLSTM序列标注模型的关键词提取方
5、法。实验证明,改进后的模型在关键词提取工作中取得了更好的效果。但标题中的关键词候选词往往是由多个词组成的,所以需要经过额外的后处理模块才能最终得到标题中关键词候选词的得分,然后排序得到关键词。因此我们构建了大粒度分词词典,采用大粒度分词策略进行实验,以此来去掉僵硬的后处理模块。实验证明,采用大粒度分词策略有助于提高关键词提取的效果。最后,我们尝试对BiLSTM序列标注模型做进一步改进,引入了attention机制,结合了通过LSTM得到的固定长度的句子向量和句子表示与句子中各个词的表示之间的attention信息。实验证明,加入attention机制的新模型实现的关
6、键词提取算法的有效性。关键词:电商;关键词提取;序列标注;循环神经网络;双向长短期记忆网络-I-哈尔滨工业大学工程硕士学位论文AbstractThekeywordextractionisoneofthemostimportanttopicsinthenaturallanguageprocessfield.Thekeywordextractioncanhelppeoplefindthekeyfromthemassiveinformation,anditplayaveryimportantroleintheexplosionofnetworkinformationtod
7、ay.Theresearchofkeywordextractionforthee-commercedomainaimstoextractthekeywordsfromtheproducttitle.Comparedwithotherresearchesofkeywordextractionproblem,oneofthedifficultiesisthatthekeywordinthee-commercetitleisoftenAcompoundofwords(forexample,"televisionremotecontrol").Asaimportants
此文档下载收益归作者所有