基于链接关系的网页分类优化算法-论文.pdf

基于链接关系的网页分类优化算法-论文.pdf

ID:58139616

大小:362.19 KB

页数:5页

时间:2020-04-24

基于链接关系的网页分类优化算法-论文.pdf_第1页
基于链接关系的网页分类优化算法-论文.pdf_第2页
基于链接关系的网页分类优化算法-论文.pdf_第3页
基于链接关系的网页分类优化算法-论文.pdf_第4页
基于链接关系的网页分类优化算法-论文.pdf_第5页
资源描述:

《基于链接关系的网页分类优化算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机与现代化2014年第5期JISUANJIYUXIANDAIHUA总第225期文章编号:1006-2475(2014)05-0014-04基于链接关系的网页分类优化算法蒋宗礼,时福林(北京工业大学计算机学院,北京100124)摘要:针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和Fl值均有所提高。关键词:网页分类;邻域网页;相似度;支持向量机

2、中图分类号:TP391文献标识码:Adoi:10.3969/j.issn.1006-2475.2014.05.004OptimizingWebPageClassificationAlgorithmbyUsingHyperlinksJIANGZong-li,SHIFu—lin(CollegeofComputer,BeijingUniversityofTechnology,Beijing100124,China)Abstract:ThereisaproblemintheWebpageclassificationalgorithmbyusinghype

3、rlinks,thenoiseneighborsinterferewiththeresultsoftheclassification.Tosolvetheproblemanoptimizationmethodwaspresented,whichutilizesthesimilaritiesbetweenpages.Ifneighborsmeetthethresholds,theyaresetdiferentweightsfordiferentrelationships.Theresultsofclassificationbysupportvect

4、ormachinealealsoused.Experimentshowsthatitincreasesinprecision,recallandF1value.Keywords:Webpageclassification;neighboringpage;similarity;supportvectormachine网页进行有效的分类,但是却没有利用邻域网页中存0引言在的大量有用信息,如果能够对其进行合理利用,就在当今信息激增的社会生活中,传统的信息获取能够在原来的基础上继续提高分类的准确率。Sriu—方式已经无法满足人们的需求,而搜索引擎以其高r

5、ai将双亲和孩子网页整合到主题模型中进行分效、便利逐渐成为人们获取信息的最重要的方式⋯。类J,Qi和Davison提出为不同关系的邻域网页赋予但是搜索引擎也存在一些问题,其中比较突出的是查权重来改善分类效果j,但是他们都没有考虑到网询结果的主题漂移问题。当用户输入查询词后,返回页中包含很多垃圾链接,这些垃圾链接会产生无用的的结果往往有很多与主题无关的网页,影响了结果的噪声邻域网页,没有任何的区分就直接使用所有的邻准确率,降低了用户的满意度。所以对网页进行分类域网页会使目标网页的分类结果不够准确。针对这十分重要。在网络搜索引擎的处理过程中,网页分类

6、一问题,本文提出利用邻域网页与目标网页间的相似问题是一个关键性的核心问题。网页分类技术不仅度来对基于链接关系的网页分类算法进行优化的方可以提高搜索结果的质量,而且对于问答系统、主题法。通过为与目标网页有不同链接关系的网页赋予爬虫、个性化信息检索和垂直搜索引擎的构建都有重不同的权值,分别进行处理,同时只有满足相似度关大的意义。系的网页才能被应用到分类中,以提高分类的效果,网页分类是信息检索的重要研究领域,有众多的实现高效、准确地对目标网页进行分类。专家、学者对其进行研究,提出了很多有效的分类方法。传统的SVM、KNN和决策树算法L3],虽然能够对收

7、稿日期:2014-03-28基金项目:国家级教学团队建设项目(00700054J1901)作者简介:蒋宗礼(1956一),男河南南阳人,北京工业大学计算机学院教授,博士生导师,硕士,研究方向:网络信息搜索与处理;时福林(1988一),男,山东济宁人,硕士研究生,研究方向:网络信息搜索与分类。2014年第5期蒋宗礼等:基于链接关系的网页分类优化算法151相关技术2基于链接关系的网页分类算法的优化1.1支持向量机2.1向量空间表示支持向量机(SVM)是一种应用广泛的分类技使用SVM进行分类和计算两个网页相似度都是术,其只通过较少的样本就可以迅速训练出

8、具有相对基于向量空间的,因此把文档转换成由特征词权重构较高性能指标的分类器。它基本思想是:首先将文本成的向量十分重要。这个转化过程主要包

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。