欢迎来到天天文库
浏览记录
ID:28055153
大小:72.55 KB
页数:16页
时间:2018-12-07
《基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用摘要:随着电子商务的迅速发展,评论挖掘将成为了是数据挖掘、自然语言处理领域的热点研究领域。要完成产品评论挖掘系统中产品特征自动提取子系统的设计与实现,就必须掌握好过滤用户评论这一环节。为了更好地先过滤产品评论,以提高挖掘结果的准确率。基于信息熵的领域术语抽取算法的应用,显著提高了产品评论分类的精度,获得了较高的召回率与正确率,更好地为产品评论挖掘系统服务。?关键词:产品评论挖掘,信息熵,领域术语自动抽取?网上商品评论从本质上讲就是一种文本数据,对于一个关注该商
2、品的潜在消费者而言,全部阅读如此庞大的文本数据以帮助自己做决定是十分困难的,所以,有效的产品评论挖掘系统成为了帮助消费者轻松进行产品评论所必不可少的。要完成产品评论挖掘系统设计与实现,获取用户评论、过滤用户评论、抽取产品特征等内容必不可少,而在过滤用户评论的过程中,由于Web上的用户产品评论存在大量的噪音,有的评论根本和产品无关,还有很多的广告信息,严重影响了产品评论挖掘的质量。因此,要先过滤产品评论,以提高挖掘结果的准确率,同时在从指定网站获取产品评论后,根据需要以词语为单位进行过滤、以字为单位进行过滤、以组块为单
3、位进行过滤,以求过滤掉其中的低质评论。使其更好地为产品评论挖掘系统服务。?例如在数码相机领域中出现的“某些领域日货有优势,某些领域国产有优势。要尽可能地支持国产品牌,看看咱们国家过去走过来的路,多么坎坷。现在我们发展势头很好,大家多努力,多支持国货。”又比如“北京吉祥数码商城,所有数码产品全部都是市场价的5折”,像以上这种评论对于评论挖掘说毫无用处,让它存留在语料库中只会增加程序的负荷,同时降低挖掘质量,降低挖掘结果的准确率。所以在进行产品评论挖掘以前我们需要对产品评论语料库进行过滤,去掉其中的低质评论,以提高挖掘质
4、量,提高挖掘结果的准确率。?领域术语自动抽取是指从一定规模的语料中抽取出能反应某一领域文本特征或共性的词语,是自然语言处理中的一项重要任务。术语抽取被广泛应用于本体构建、自动摘要、语言模型等领域。单纯靠语言学专家抽取领域术语费时费力,因而很难形成规模,开发一种自动化的方法来辅助术语抽取显得尤为必要,能为许多面向领域的应用提供重要语言学资源。通常被采用的方法可以分为基于规则的和基于统计的方法两大类。基于规则的方法是通过预先设定许多规则模版,然后把待处理语料中与规则模版相匹配的词语作为领域术语候选。规则方法的不足在于很难
5、制定一个完备的规则集来穷尽所有语言现象,并且当已有许多规则时,还需要考虑多个规则之间的冲突及解决。基于统计的方法通常包括机器学习方法和基于统计量度的方法。基于统计量度的方法是从领域分类语料中统计用词规律从而发现领域术语。已有的统计量度包括TFIDF、KFIDF、DR+DC。KFIDF量度与TFIDF才目t匕,引入了词语的类别信息。DR和DC分别表示词语的领域相关性和领域一致性,领域一致性是指词语在其相关领域的所有文档中分布的一致性,它对获取高质量领域术语起重要作用。该方法被用于英文文本的领域术语抽取并取得了很好的效果
6、,但该方法没有考虑不同领域语料的规模以及不同文档长度对领域术语抽取的影响。?在前人工作基础上,基于如下两个度量标准又有了一种新的领域术语抽取方法被提出,它能够更加准确、有效地度量领域术语的属性:?®.领域术语应该在不同领域类别间分布不均匀。?©.领域术语在其相关领域的文档集中应尽可能分布均匀。?我们采用信息熵来衡量以上两个分布,并根据不同领域语料的规模及文档长度做正规化。这样也就是从类间分布、类内分布及语料规模三方面来衡量每个词语。本文还用该领域术语抽取方法代替传统特征选择方法应用于文本分类,使文本分类精度有了很大提
7、高。?一、基于信息熵的领域术语自动抽取算法?方便起见,我们定义如下数学符号:?m:领域类别个数?D?i(l«m>:第i个领域类别?n?i(l«m):类别Di中的文档数目?P(D?j
8、W):词语W出现在类别Di中的概率?d??ij?(l9、词语集合?领域术语抽取的目标是给出集合WS的一个合理划分,满足WS??rel?UWS??irre?=WS,WS??rel?nWS??irre?=?,同时求出WS??Di??WS??rel?,在颂域术语不兼类时,WS??D1?,WS??D2?,…,WS??Dm?构成WS??rel?的一个划分。通过全面考虑词语在领域类内、类间分布情况来给出WS的合
9、词语集合?领域术语抽取的目标是给出集合WS的一个合理划分,满足WS??rel?UWS??irre?=WS,WS??rel?nWS??irre?=?,同时求出WS??Di??WS??rel?,在颂域术语不兼类时,WS??D1?,WS??D2?,…,WS??Dm?构成WS??rel?的一个划分。通过全面考虑词语在领域类内、类间分布情况来给出WS的合
此文档下载收益归作者所有