web文本特征提取方法的研究与发展

ID：11404174

大小：37.00 KB

页数：12页

时间：2018-07-11

资源描述：

《web文本特征提取方法的研究与发展》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、Web文本特征提取方法的研究与发展●庞景安(中国科学技术信息研究所北京100038)Web文本特征提取方法的研究与发展摘要:本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测.关键词:web文本;文本特征;特征提取;学习算法Abstract:Wit}labrief8ullRnal-yandanalysisofthepresentresearchandexperimentonWebtextfeatureextraction.this

2、papercomparestheadvantagesandshortagesofeachmethod,pointsoutthedifficultiesandproblemsintheresearch,andbasedonthis,forecaststhefuturedevelopmentandtendencyoftheresearchinthisdomain.Keywords:Webtext;textfeature;featureextraction;leamingalgorithm当前,因特网正在以前所未有的速度飞速发展,Web已经发展成为拥有数以亿计页面的分布式信息空

3、间,而且这个数字仍以每4至6个月翻一番的速度增加.人们迫切需要从这些海量的,异构的Web信息资源中,快速,有效地发现和利用有价值的知识和信息.Web文本挖掘就是从大量的Web文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同.web文本挖掘的对象是海量,异构,分布的Web文档;文档内容是人类所使用的自然语言,缺乏计算机可理解的语义.传统数据挖掘所处理的数据是结构化的,而Web文档都是半结构或无结构的.所以,Web文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算

4、法无法处理.近年应用最多的Web文本特征表示方法是向量空间模型(VSM).在该模型中,文档空间被看作是由一组正交词条向量所组成的向量空间,每个文档表示为其中的一个范化特征向量V(d)=(t】w1(d);……;Wi(d);……;tn'vn(d)).其中为词条项,Wi(d)为在d中的权值.可以将d中出现的所有单词作为,也可以要求是d中出现的所有短语,从而提高文本特征表示的准确性.利用向量空间模型(VSM)表示Web文档时,特征向量的维数经常会达到几十万,即使删除停用词和低频词,仍会有大量的特征留下.统计学,模式识别和机器学习中都有许多特征选择的方法,但是都不适用于web文本挖

5、掘,因为Web文本的特征数量实在太大.若特征数为F,优化时要搜索的特征空间大小为2,这样的计算复杂度是?---——338?---——难以实现的.于是关于Web文本特征提取的研究就显得非常重要,成为Web文本挖掘进行的必要前提和基础.1基于评估函数的特征提取方法这类型算法是在特征独立的假设基础上,通过构造评估函数,对特征集合中的每个特征进行独立评估,并对每个特征打分.然后将所有特征按分值大,l,aF序,提取预定数目的最优特征作为提取结果的特征子集.显然,对于这类型算法,决定Web文本特征提取效果的主要因素是评估函数的质量.常用的评估函数有以下几种:1)文档频数(Docume

6、ntFrequency).DocFreq(F)=P(wici)=2)信息增益(InformationGain).InfGain(F)=P(W)ZP()l0g+I,ul,P(-)ZiP(Cil0g3)期望交叉熵(ExpectedCrossEntropy).CrossEntryTxt(F)=P(W)ZP(Ci1w)l0g4)互信息(MutualInformation).MutualInforTxt(F):P(ci)log1J～,',5)文本证据权(111eWei~tofEvidenceforText).WeightofEvidTxt(F)=P(w)ZP(ci)Il0gP(Ci

7、1w)(1一P(Ci)).P(Ci1w)).6)优势率(OddsnB.tiO).?第29卷2OO6年第3期?OddsRafio(F)7)词频(woFrequency).Freg(F)=TF(W)在上述公式中,F为对应于单词w的特征,P(W)为单词w出现的概率,w表示单词w并不出现,P(Ci)为第i类词的出现概率,P(C;1w)为单词w出现时属于第i类的条件概率,P(WIpos)为在类pos中单词w出现的条件概率,P(Wlneg)为在类neg中单词w出现的条件概率,TF(w)为单词w在文档集中出现的概率.这些评估函数在Web文本

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 12



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web文本特征提取方法的研究与发展

web文本特征提取方法的研究与发展

相关文章

相关标签