基于用户查询日志的命名实体挖掘

基于用户查询日志的命名实体挖掘

ID:37645988

大小:287.94 KB

页数:7页

时间:2019-05-27

基于用户查询日志的命名实体挖掘_第1页
基于用户查询日志的命名实体挖掘_第2页
基于用户查询日志的命名实体挖掘_第3页
基于用户查询日志的命名实体挖掘_第4页
基于用户查询日志的命名实体挖掘_第5页
资源描述:

《基于用户查询日志的命名实体挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、*基于用户查询日志的命名实体挖掘翟海军,郭嘉丰,王小磊,许洪波中国科学技术大学计算机科学与技术系安徽230027E-mail:zhaihaijun@software.ict.ac.cn摘要:本文研究了针对大规模查询日志中丰富的命名实体的挖掘技术。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度来进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,而实际命名实体却往往可能从属于多个类别。本文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的

2、有效性。实验表明我们的方法在实体挖掘性能上显著优于已有的方法。关键词:命名实体,用户查询日志,话题模型MiningNamedEntitiesfromQueryLogsZhaiHaijun,GuoJiafeng,WangXiaolei,XuHongboDepartmentofComputerScienceandTechnology,UniversityofScience&TechnologyofChina,Anhui230027E-mail:zhaihaijun@software.ict.ac.cnAbstract:This

3、paperaddressestheproblemofminingnamedentitiesfromquerylogs.Previousworkproposedaseed-basedframeworktominenamedentitiesfromquerylogsbyleveragingdistributionsimilarity.However,thisframeworkworkswellwheneachnamedentityonlybelongstoonesemanticclass.Infact,namedentitie

4、smayoftenbelongtomultipleclasses.Inthispaper,weintroduceaweakly-supervisedtopicmodeltoresolveclassambiguityofnamedentitiesbyleveragingweaksupervisionfromhuman.Inthiswaywecangreatlyimprovetheeffectivenessoftheminingframework.Theexperimentresultsshowthatourapproachs

5、ignificantlyoutperformsthepreviousmethod.Keywords:namedentity,querylog,topicmodel.1引言近年来,数据挖掘领域的一个共同的发展趋势是对大规模数据信息抽取技术的研究,尽管这些研究工作在抽取的目标信息、底层算法以及使用工具上可能各有不同。其中,用户查询日志作为一类富含大众智慧的海量数据资源,成为了数据挖掘领域广泛关注的研究对象。从查询日志中获取的各种知识不仅可以为信息检索领域所用,还可以成为机器翻译、自然语言处理等等领域的基础。本文研究了针对大规模

6、查询日志中丰富的命名实体的挖掘技术。对查询日志中命名实体的挖掘在垂直搜索,查询推荐,以及Web检索等方面都有广泛的应用前景。例如用户提交了查询“thefamilystone”,基于命名实体挖掘的结果可以知道“thefamilystone”是指一部电影,通过将该查询提交到影视相关的垂直搜索中,返回的查询结果可以更好地满足用户的查询需求。[1-3]以往对命名实体识别的研究主要集中在文本领域中,至今已有近二十年的发展历史。它作为自然语言处理领域的一项重要技术,已经取得了很多成果。早期命名实体识别的技术通常依[1]赖于人工指定规则

7、。近年来,机器学习的方法也开始被应用于命名实体识别,包括了监督学习,[2][3]半监督学习和无监督学习。*本课题受国家重点基础研究计划(973)课题“大规模文本内容计算(2004CB318109)”和国家高技术研究发展计划(863)项目“网络文本的倾向性分析(2007AA01Z441)”资助。与文本领域中的命名实体识别不同,用户查询通常都很简短(往往只有2-3个词),并且不具备严格的语法,语义很模糊,因此文本领域中的命名实体识别技术不能直接有效地应用到查询上。这给基于用户查询的命名实体挖掘的研究工作提出了新的挑战。已有的研

8、究表明用户查询数[4]据具有一些独有的分布特性,分析这些特性有助于我们从用户查询日志中挖掘命名实体。Pasca提出了一种利用查询模板从用户查询日志中挖掘命名实体的确定性方法(Determ)。作者将查询分解为两部分,某个类别的实例(即命名实体)和查询模板(即查询上下文)。在此基础上,通过人工给定目标类别下

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。