Web文本特征选择算法的研究.pdf

Web文本特征选择算法的研究.pdf

ID:52768703

大小:64.84 KB

页数:3页

时间:2020-03-30

Web文本特征选择算法的研究.pdf_第1页
Web文本特征选择算法的研究.pdf_第2页
Web文本特征选择算法的研究.pdf_第3页
资源描述:

《Web文本特征选择算法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、·36·计算机应用研究2005年*Web文本特征选择算法的研究冯长远,普杰信(河南科技大学电子信息工程学院,河南洛阳471003)摘要:以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。关键词:文本表示;向量空间模型;特征选择;熵中图法分类号:TP393文献标识码:A文章编号:1001-3695(2005)07-0036-03Researchabou

2、tAlgorithmofWebTextFeatherSelectionFENGChang-yuan,PUJie-xin(CollgegeofElectronicInformationEngineering,HenanUniversityofScience&Technology,LuoyangHenan471003,China)Abstract:ThispaperusesvectorspacemodelasthedescriptionoftheWebtext,analysesthefeatherselectionalgorithmandbringsforwardanimprovedalgori

3、thminviewoftheconstructcharacteroftheWebtext.Thenewalgorithmdescribesthesitua-tioninformationofthefeathertermsinWebtext,introducestheconceptofentropyandadjuststheweightingbytheentropy-functionofthewords,thusitcanselectfeathertermsmoreeffectively.Theexperimentshowsthefeasibilityandthevalidityofthism

4、ethodinfeatherselection.Keywords:TextRepresents;VectorSpaceModel;FeatherSelection;Entropy随着Internet上信息资源的迅猛增加,以及人们对能够从对Web文档中的信息进行预处理,提取出HTML结构中各个Web上快速、有效地发现资源和信息的工具的迫切需要,大大标记符中的文本信息,然后按照普通文本的处理方式表示。文促进了信息检索技术的发展,尤其是Web信息检索技术的发本表示的模型有多种,近年来研究学者提出的模型有向量空间[2]展。这主要表现在近年来更多的研究者关注于面向特定问题模型(VectorSpaceM

5、odel,VSM)。VSM把文档看作是由一的解决方法的研究,如针对信息检索领域中的文本分类、聚类组正交词条矢量所组成的矢量空间,每个文档表示为其中的一和自动文摘等算法的提出和改进,以及信息内容的智能化过滤个范化特征矢量。布尔逻辑模型是VSM模型的一种简化,是等。文本的表示及其特征项的选取是信息检索的一个基本问一种严格匹配向量模型,其实现简单可用于快速检索;此外还题,它把从文本中抽取出的特征词进行量化来表示文本信息。有概率模型和混合模型。目前应用最多且效果较好,并被广泛这些特征词作为文档的中间表示形式,用来实现文档与文档、接受的是VSM。[1]文档与用户目标之间的相似度计算,对文本内容的过滤和

6、在VSM中,从文本中提取其特征词组成特征向量,并计算分类、聚类处理以及用户兴趣模式发现等有关信息检索方面的出特征词的权重。例如文档可以表示为(t,t,⋯,t),其中t12Ni研究都有非常重要的影响。目前有关文本表示的研究主要集(1≤i≤N)是特征词。根据特征词的不同重要程度,可以赋予[2~4]中于文本表示模型的选择和特征词选择算法的选取上,但不同的权重Wi来进行量化,这样文档也可表示为(W1,W2,⋯,是多数研究算法是针对普通文本结构的,对具有HTML结构WN),其中每一项Wi与相应的特征词ti(1≤i≤N)对照。在特征Web文本,这些算法在准确表示文本信息的程度上仍然VSM中,不考虑特征词

7、在文中出现的先后顺序,只保证特征词存在一些不足。的唯一性,然后把t,t,⋯,t看成一个N维的坐标系,则相应12N本文利用向量空间模型作为Web文本的表示方法,讨论的W1,W2,⋯,WN为文档在坐标系中的坐标值,一个文档就可了特征词选择和词权重算法的实现,对TFIDF算法进行了深以被表示成一个N维空间中的向量。这样就把文档以向量的入分析,给出了一种改进的Web文本特征获取算法,提高了形式定义到实数域中,使得机器

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。