欢迎来到天天文库
浏览记录
ID:32373090
大小:75.00 KB
页数:11页
时间:2019-02-03
《关于csr的总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、我们现在呈现一种能识别比较句的方法------CSR挖掘和机器学习的结合。在规则中序列模式被用作特征。CSRs是用一个类序列规则挖掘系统自动实现的。一个关键字策略用来过滤掉那些不可能是比较句的句子。对于分类,我们用两种方法进行实验:1.直接用CSRs2.基于规则用机器学习方法建立一个分类器。我们将讨论两种方法,下面先定义CSRs,然后产生数据用来发现规则。4.1多个最小支持度的CSR序列模式挖掘是一个重要的数据挖掘任务,输入一个序列集,SPM的任务就是找出满足用户最小支持的所有序列模式。一个序列模式就是一个子序列----在输入序列中
2、比最小支持率的阈值出现的频率高的子序列。CSR就是序列模式在左边,类标签在右边一种规则。不像类序列模式挖掘是无监督的,因为我们用固定的分类进挖掘序列模式规则,所以新的方法是监督的。现在我们就定义CSRs。I=是个项集,一个序列是个有顺序的项集。一个项集X是不空的。我们定义一个序列s,如果X是数据集D中的的实例()的的子序列,那么着个实例()叫做覆盖CSR;如果且,那么()满足一个CSR。规则的支持度是在D中满足规则的所有实例的百分比。规则的置信度是在D中覆盖规则又满足规则的的实例的百分比。表一给了一个例子序列数据库(五个序列和两个类
3、别)。用最小20%的支持度和最小40%的置信度,例如CSRs中的而一个:〈{1}{3}{7,8}〉→c1[support=2/5andconfidence=2/3]数据序列1,2满足规则,1,2,5覆盖规则。给一个类标签序列数据集D,给一个最小支持度和一个最小置信度,CSR挖掘出在D的所有类序列规则。挖掘算法是被涉及,超出这篇论文的范围。(详细见[20]).多个最小支持度:上面的模型用的是一个最小支持度来控制规则的产生。但是,对我们的情况来说,这是不够的。因为有的单词(可以暗示是比较句)出现的频繁,有的单词出现的少。现存的序列模式发
4、现在数据挖掘的算法用只有一个最小支持度来控制模式产生过程。识别含有低频率的单词的模式显然这是不足的。因为我们需要建立很低的最小支持度,这样就会导致高频率单词产生庞大的模式----(过拟化overfitting)。这样,我们提出多个最小支持度模型来解决这个问题。在这个模型中每一个单词基于出现在训练集中的频率有一个最小支持度。这个模型让我们找到了那些不会产生太多过拟和的含有的规则。需要指出的是多个最小支持度关系规则在[18]中被研究。但是,它的算法不能被应用到这里,因为算法需要用一个特殊的顺序精简每一个句子的单词,这样打破单词序列。为了
5、得到多个最小支持度的效果,我们用(他是通过实验得到的参数,我们用0.01)。从第一行到第三行,我们看到最小支持度随着在数据中的的项目的频率的改变而改变,这样对于频繁项目的最小支持度会高些,而不频繁项目的支持度会低些。ThefunctionCSR产生出在W的项目的所有规则。1.Computethefrequenciesofalltheitemsinthetrainingdata2.foreachgroupofitemsWwiththesamefrequencydo3.minsup=frequency(W)*τ;4.CSR(traini
6、ngData,W,minsup,minconf);5.end_for4.2为挖掘构造数据集(ConstructingtheDataSetforMining)我们现在就来讨论怎么从文本中构建数据集。既然在这个项目中,而我们研究的是句子,那么每个句子被看做一个序列。但是,我们不能用原始的每个句子的单词,因为一些句子的内容不同,但它们的模式完全相同。如果用原始单词的话,,这样的模式或许不会被发现。,例如:下面的两个句子比较了不同的物体。:“IntelisbetterthanAmd”,and“Laptopsaresmallerthandes
7、ktopPCs”仅仅比较单词,系统不会发现任何模式,除了一个相同的的单词“than”。但是,人回很清楚地看见一个模式。这样,POS标注抓取了独立于语言模式的内容(你是对我们有用的)。4.2.1关键字策略我们的对比较句很感兴趣。我们和容易找到一些关键字老覆盖几乎所有的比较句,例如:有很高的召回率。但是精确率却很低。这就需要我们设计一下策略进行学习。关键字策略:既然召回率很高,精确率低,我们就尝试着改善精确率。更准确的说,我们只考虑包含至少一个关键字的句子,然后产生CSR来过滤掉那些非比较句。这已经暗示了我们的数据集产生。也就是说那些不
8、含关键字的句子被移除。让我们看那看看什么是关键字,除了-er还有很多隐含比较句的单词,如beat,exceed,outperform。我们已经编制了一个关键字表。我们首先在比较级的子集上手工找30个单词。我们然后用wordnet来找他
此文档下载收益归作者所有