apriori算法在词性标注规则获取中的应用

ID：31365281

大小：116.00 KB

页数：10页

时间：2019-01-09

资源描述：

《apriori算法在词性标注规则获取中的应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、Apriori算法在词性标注规则获取中的应用　　摘要：人工方法获取的规则准确率有待验证，所以从数据挖掘的角度运用Apriori算法对词性标注规则的获取进行研究。用户根据需求自定义支持度与置信度，在满足规定支持度的前提下，先从候选集模式中挑选出高于支持度的模式，再挖掘出高于置信度的产生式规则，获取的规则是隐含在数据中不易被发现的，其表达上是明确的。实验表明，自动获取的标注规则具有很好的利用价值，可以提高词性标注的正确率。　　关键词：数据挖掘；Apriori算法；词性标注；规则　　中图分类号：TP391文献标志码：A

2、文章编号：1006-8228（2016）10-32-04　　ApplicationofApriorialgorithmtoobtainpart-of-speechtaggingrules　　MaRuyi　　（ComputerDepartmentQinghaiUniversityforNationalities，Xining，Qinghai810007，China）　　Abstract：Thecorrectrateoftheartificiallyobtainedrulesneedtobeverified，sofr

3、omthepointofviewofdatamining，usingApriorialgorithmtoobtaintherulesofpart-of-speechtaggingisresearchedinthispaper.Userdefinestheirsupportandconfidenceaccordingtotherequirements，inthepremiseofmeeting10thesupportprovided，amodethatishigherthanthesupportisselected

4、fromthecandidatemodeset，andtheproductionrulethatishigherthantheconfidenceisdugout，theruleishiddeninthedataandnoteasytobefound，butitsexpressionisclear.Experimentsshowthatthetaggingrulesautomaticallyobtainedhaveagoodutilityvalue，andcanimprovethecorrectrateofpar

5、t-of-speechtagging.　　Keywords：datamining；Apriorialgorithm；part-of-speechtagging；rule　　0引言　　数据挖掘[1]是从大量的数据中提取或“挖掘”知识。具体来说，数据挖掘就是从大量的、随机的、模糊的、不完全的、有噪声的数据中，提取隐含在其中的、潜在有用的、事先不为人知道的知识和信息的过程[2]。词性标注是自然语言处理的一个重要环节，其任务是为句子中的每一个词标注一个正确的词性，此环节出现的错误，将在后续的句法分析、机器翻译等处理中被放

6、大[3]。词性标注迄今为止已经有很多方法，有基于规则、统计以及规则与统计相结合的方法[4]。　　规则的获取一般由人工整理集成，但这存在以下两方面的问题[5]：①从规则的应用范围上看，靠人工的方法只可能产生一些共性规则，不可能产生针对个别情况的个性规则，而个性规则尽管应用范围小，但也是提高正确率的重要手段；②10由于人工方法获取的规则准确率有待验证，因此在基于统计方法正确率不易再提高的前提下，能否自动高效地获取规则是实现词性标注中的关键问题。　　本文对于词性标注规则的获取不需要进行维数与层次分析，也不需要采用分而治

7、之的方法，而是采用了最基本的Apriori算法，从人工已标注好的语料中来研究词性及词的模式序列对词性的影响。该方法与人们利用语料上下文中的词、词性等信息来对词性进行判断的方法是一致的。在统计语料规模较大的情况下，给定最小支持度及最小可信度后，首先挖掘大于最小支持度的常用模式集，然后生产关联规则，若此规则的可信度大于最小可信度，则得到词性规则。如果最小可信度定义的足够高，则获得的规则能够作为概率方法的补充，从而较好地解决词性标注问题。但由于该规则的挖掘是在文本数据中进行的，同时它又依赖于词性与词的各种组合，这使得其

8、挖掘过程较数据库中的数据挖掘复杂得多[5]。　　1Apriori算法及问题描述　　1.1Apriori算法　　Agrawal等人[6]于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，设计了基于频繁集理论的Apriori算法[7]。Apriori算法是一种最有影响力的挖掘布尔关联规则频繁项集的算法。其核心是基于两个阶段频繁项集思想的递推算法，该算法的设计分解

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

apriori算法在词性标注规则获取中的应用

apriori算法在词性标注规则获取中的应用

相关文章

相关标签