基于覆盖中文网页分类的研究

基于覆盖中文网页分类的研究

ID:32009706

大小:1.15 MB

页数:62页

时间:2019-01-30

基于覆盖中文网页分类的研究_第1页
基于覆盖中文网页分类的研究_第2页
基于覆盖中文网页分类的研究_第3页
基于覆盖中文网页分类的研究_第4页
基于覆盖中文网页分类的研究_第5页
资源描述:

《基于覆盖中文网页分类的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于覆盖的中文网页分类研究TheChineseWebCategorizationResearchbasedoncoveralgorithm姓名闫屹学科专业计算机应用技术研究方向智能计算与应用指导教师张燕平教授完成时间2008年5月安徽大学2008届硕士学位论文摘要摘要随着Internet的迅速发展,尤其是WorldWideWeb的全球普及,Web网络上信息资源己经涵盖了社会生活的各个方面,网络信息过载(InformationOverload)问题日益突出,这又促使Web挖掘技术和Web网络信息检索技术迅速发

2、展。其中,通过什么样的方法和途径来使网站的网页信息资源得到合理有效地组织,提高网络信息检索的速度和准确度,是个颇让人们感兴趣的问题。网页分类恰恰提供了这样一种合理而有效组织信息的方法。网页分类提供了处理和组织大规模文本信息的关键技术,它是使网络信息资源得以合理有效组织的重要方法。它为使用在网络上存在的海量信息提供了可能性并大大提高了网络资源的利用率。由于我国的互联网起步较晚,因而与之相对应的网页分类也发展较晚。近年来,中科院软件研究所、北京邮电大学模式识别与智能实验室、微软亚洲研究院等多家研究机构都在进行着

3、与中文网页分类相关的理论研究。我校的张铃老师提出的覆盖算法也为这一研究提供了理论及算法上的支持。前向神经网络的覆盖算法是由张铃老师提出的一种机器学习方法。本文将覆盖算法应用到中文网页的分类中,结合各种经典的分词和降低特征维数的方法进行分类,并与SVM方法,贝叶斯算法的分类结果进行比较分析。本文所做的主要工作和创新点如下:1)对HTML文本进行了简要的介绍,说明如何通过预处理从HTML文本中取出对后期分类有价值的中文文本。2)本文对以往中文网页分类的预处理过程加以改进,对在分类中作用显著的等标签</p><p>4、下的文本给以较大权重值。3)对文本内容进行处理时,为了减少特征向量的维数,本文使用文本分类中常2见的几种特征降维方法(文本频度、χ统计量方法、互信息方法、信息增益方法、期望交叉熵方法、文本证据权方法)分别对中文网页样本进行了测试。实验结果表2明,χ统计量方法和期望交叉熵方法对文本分类最为有效,文本频度方法和文本证I安徽大学2008届硕士学位论文摘要据权方法稍差,而互信息方法和信息增益的方法效果最差;4)获得有效的网页文本特征向量后,需要使用合适的分类器进行分类。本文首次将张铃、张钹教授提出的前向人工神经网络</p><p>5、基础上的覆盖算法应用到中文网页的分类中。本文对使用覆盖算法和SVM方法作为分类器进行了对比,实验表明覆盖算法是一种优秀的分类器,可以有效的进行中文网页的分类。本文在中文网页分类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:1)本文的研究对象是针对中文网页,今后可以对非中文网页进行研究,将非中文网页也纳入研究范围中;2)多模式识别方法下的中文网页分类可以进一步深入研究。关键词:中文网页;文本降维;模式识别;覆盖算法II安徽大学2008届硕士学位论文AbstractAbstractWith</p><p>6、therapiddevelopmentofInternet,especiallytheglobalpopularizesoftheWorldWideWeb,theinformationresourcesonthewebhascoveredallaspectsofsociallifeandproblemhasbecomeincreasinglyprominentbecauseofthenetworkinformationoverload.ThispromotestherapiddevelopmentofWeb</p><p>7、miningandWebinformationsearchtechnology.Amongthem,throughwhatkindofwaysandmeanstomakethewebsiteinformationresourcesrationallyandeffectively,soastoimprovethespeedandaccuracyofinformationsearch,istheissuepeoplereallyinterestedin.Textcategorizationprovidesthe</p><p>8、keytechnologyofprocessingandorganizinglarge-scaletextinformation,whichisanimportantapproachoforganizinginformationresourcesrationally.Itprovidesapossibilityofusingthemassofinformationonthewebandgreatlyimprove</p> </div> <div class="mt-3 bg-white"> <div class="d-lg-block d-none px-3 px-lg-4 py-3 border-bottom text-center font-18"> 当前文档最多预览五页,下载文档查看全文 </div> <div class="detail-fixed-feature d-none d-lg-block" id="detailFixedFeatureBox"> <div class="px-3 px-lg-4 py-3 d-flex align-items-center justify-content-between fixed-feature-box" id="detailFixedFeature"> <div class="d-lg-flex d-none align-items-center"> <div> <a class="btn btn-outline-danger article-state" href="javascript:;" data-id="32009706" data-code="438274" data-title="基于覆盖中文网页分类的研究"> <span>侵权申诉</span> </a> <button type="button" class="btn btn-outline-secondary with-light ml-2" data-toggle="modal" data-target="#reportModal" data-id="32009706"><span>举报</span></button> </div> <nav class="d-flex align-items-center ml-4" id="anchorPoint"> <a href="javascript:;" class="btn btn-light anchor-pre px-2"><i class="iconfont text-muted"></i></a> <div class="text-muted mb-0 pre-point-list" id="prePointList"> <a class="px-2 active nav-link" href="#anchorImg0">1</a> <a class="px-2 nav-link" href="#anchorImg1">1</a> <a class="px-2 nav-link" href="#anchorImg2">2</a> <a class="px-2 nav-link" href="#anchorImg3">3</a> <a class="px-2 nav-link" href="#anchorImg4">4</a> <a class="px-2 nav-link" href="#anchorImg5">5</a> / <span class="px-2" id="prePageNums">62</span> </div> <a href="javascript:;" class="btn btn-light anchor-next px-2"><i class="iconfont text-muted"></i></a> </nav> </div> <div class="d-flex align-items-center"> <p class="d-lg-block d-none font-14 text-black-50 mb-0 mr-2">此文档下载收益归作者所有</p> <button class="btn btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" style="width:128px;height:40px;" data-id="32009706" data-price="1000" data-size="1.15 MB" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于覆盖中文网页分类的研究">下载文档</button> </div> </div> </div> </div> <div class="d-block d-lg-none px-3 px-lg-4 py-3 border-bottom text-center font-14" style="color:#999">当前文档最多预览五页,下载文档查看全文</div> <button class="btn d-block w-100 d-lg-none btn-danger detail-download-btn px-3 ml-0 font-16" data-btn="downloadfile" data-id="32009706" data-price="1000" data-size="1.15 MB" data-page="62页" data-type="pdf" data-binddown="true" data-isold="new_content" data-vip="0" data-title="基于覆盖中文网页分类的研究">点击下载本文档 </button> </div> <div class="px-3 px-lg-4 py-3 bg-white mt-3"> <ul class="nav custom-tab border-bottom" id="myTab" role="tablist"> <li class="nav-item" role="presentation"> <a class="nav-link active px-0 mr-4 font-16 font-weight-light pb-3" id="tips-tab" data-toggle="tab" href="#showTips" role="tab" aria-controls="showTips" aria-selected="true">版权提示</a> </li> <li class="nav-item" role="presentation"> <a class="nav-link px-0 pb-3 font-16 font-weight-light text-black-50" href="/d-32009706.html" >下载文档</a> </li> <dl class="flex-grow-1 mb-0 d-lg-none"> <li class="ml-3 float-right d-lg-none"> <button type="button" class="btn btn-light" data-toggle="modal" data-target="#reportModal" data-id="32009706"><span>举报</span></button> </li> </dl> </ul> <div class="tab-content with-content pt-3" id="myTabContent"> <div class="tab-pane fade show active font-14" id="showTips" role="tabpanel" aria-labelledby="showTips-tab"> 温馨提示: <br> 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。<br> 2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。<br> 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。<br> 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。 <br> </div> </div> </div> </div> <div class="detail-sidebar d-none d-lg-block"> <div id="columnDetailSiderRight"> <div class="detail-yourlike mt-0 pb-2" id="relativeArticle"> <div class="border-bottom py-2 d-flex align-items-center justify-content-between"> <h5 class="font-16">相关文章</h5> <a class="font-14 hover-letter-spacing" href="/ucenter/search/index.html?text=基于覆盖中文网页分类的研究" target="_blank" rel="nofollow">更多<i class="iconfont font-12 pl-1"></i></a> </div> <ul class="font-14 like-list"> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-22012570.html" title="基于支持向量机的中文网页分类的研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>支持向量机<span class="text-danger">的</span><span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span><span class="text-danger">的</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-doc" href="/p-27723374.html" title="中文网页自动分类研究及分类算法的设计与实现" target="_blank"><span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span>自动<span class="text-danger">分</span><span class="text-danger">类</span><span class="text-danger">研</span><span class="text-danger">究</span>及<span class="text-danger">分</span><span class="text-danger">类</span>算法<span class="text-danger">的</span>设计与实现</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-33297263.html" title="基于web挖掘技术的网页分类研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>web挖掘技术<span class="text-danger">的</span><span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35058922.html" title="基于url模式的网页分类算法研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>url模式<span class="text-danger">的</span><span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span>算法<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35130331.html" title="试论中文网页自动分类技术研究" target="_blank">试论<span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span>自动<span class="text-danger">分</span><span class="text-danger">类</span>技术<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35146372.html" title="试论中文网页分类技术的研究与实现" target="_blank">试论<span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span>技术<span class="text-danger">的</span><span class="text-danger">研</span><span class="text-danger">究</span>与实现</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-35179375.html" title="基于统计的web网页分类算法研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>统计<span class="text-danger">的</span>web<span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span>算法<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-37377245.html" title="基于实体属性的中文网页检索研究" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>实体属性<span class="text-danger">的</span><span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span>检索<span class="text-danger">研</span><span class="text-danger">究</span></a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-pdf" href="/p-37593817.html" title="基于改进的贝叶斯模型的中文网页分类器" target="_blank"><span class="text-danger">基</span><span class="text-danger">于</span>改进<span class="text-danger">的</span>贝叶斯模型<span class="text-danger">的</span><span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span><span class="text-danger">分</span><span class="text-danger">类</span>器</a> </li> <li class=""> <a class="text-ellipsis office-icon text-dark office-icon-docx" href="/p-45764243.html" title="中文网页层次分类的研究" target="_blank"><span class="text-danger">中</span><span class="text-danger">文</span><span class="text-danger">网</span><span class="text-danger">页</span>层次<span class="text-danger">分</span><span class="text-danger">类</span><span class="text-danger">的</span><span class="text-danger">研</span><span class="text-danger">究</span></a> </li> </ul> </div> <div class="detail-yourlike pb-2"> <div class="border-bottom py-2"> <h5 class="font-16">相关标签</h5> </div> <ul class="font-14 like-list d-flex flex-wrap"> <a class="search-tag" href="/tags/542567/" target="_blank">网页</a> <a class="search-tag" href="/tags/1313083/" target="_blank">中文</a> <a class="search-tag" href="/tags/1504145/" target="_blank">覆盖</a> <a class="search-tag" href="/tags/540614/" target="_blank">基于</a> <a class="search-tag" href="/tags/540089/" target="_blank">分类</a> <a class="search-tag" href="/tags/540313/" target="_blank">研究</a> </ul> </div> <script src="/d/js/acmsd/thea1.js"></script> </div> </div> </div> <footer> <div class="container d-none d-lg-block mb-4"> <div class="d-flex justify-content-between footer-nav"> <ul class="d-flex foot-nav"> <li> <h5>常见问题</h5> <a class=text-decoration-none href=/help/wenti/upload/ target=_blank> 关于上传 </a><a class=text-decoration-none href=/help/wenti/xiazai/ target=_blank> 关于下载 </a><a class=text-decoration-none href=/help/wenti/qinquan/ target=_blank> 关于侵权 </a><a class=text-decoration-none href=/help/wenti/fenxaing/ target=_blank> 分享文档赚钱教程 </a> </li> <li> <h5>关于我们</h5> <a class=text-decoration-none href=/help/about/wzjs/ target=_blank> 网站介绍 </a><a class=text-decoration-none href=/help/about/gywm/ target=_blank> 关于我们 </a><a class=text-decoration-none href=/help/about/lxwm/ target=_blank> 联系我们 </a> </li> <li> <h5>版权问题</h5> <a class=text-decoration-none href=/help/banquan/bqsm/ target=_blank> 版权声明 </a><a class=text-decoration-none href=/help/banquan/qqcl/ target=_blank> 侵权处理 </a><a class=text-decoration-none href=/help/banquan/mzsm/ target=_blank> 免责声明 </a> </li> <li> <h5>协议条款</h5> <a class=text-decoration-none href=/help/xieyi/yhxy/ target=_blank> 用户协议 </a><a class=text-decoration-none href=/help/xieyi/fwtk/ target=_blank> 用户服务条款 </a><a class=text-decoration-none href=/help/xieyi/ysbh/ target=_blank> 用户隐私保护 </a> </li> <li> <h5>网站导航</h5> <a class="text-decoration-none help-nav-item" href="/sitemaps.xml" data-name="网站地图" target="_blank">网站地图</a> <a class="text-decoration-none help-nav-item" href="/list.html" data-name="全部分类" target="_blank">全部分类</a> <a class="text-decoration-none help-nav-item" href="/sitemaps/index.html" data-name="资源地图" target="_blank">资源地图</a> </li> </ul> <div class="foot-qrcode d-flex"> <div> <div class="subsitute-bg"><img src="https://www.wenku365.com/d/file/2022/07-08/f23df57d987ef7ad9acb33fe5abf9854.jpg"></div> <p>关注公众号<br></p> </div> </div> </div> </div> <div class="footer-copyright"> <p><a href="/" target="_blank">天天文库</a>站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。</p> <p>本站是网络服务平台方,若您的权利被侵害,侵权客服QQ:3074922707 欢迎举报。</p> <p>Copyright 2004-2021 <a href="https://www.wenku365.com/" target="_blank">wenku365.com</a> All Rights Reserved <a href="https://beian.miit.gov.cn/#/Integrated/index" rel="nofollow" target="_blank">闽ICP备15016911号-5 </a></p> <p>闽公网安备 <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=35052402000320" rel="nofollow" target="_blank">35052402000320</a></p> <p> <a href="https://www.wenku365.com/zt.html" target="_blank">专题文集</a> <a href="https://www.wenku365.com/zt-90007.html" target="_blank">丨职业培训</a> <a href="https://www.wenku365.com/zt-90005.html" target="_blank">丨实用范文</a> <a href="https://www.wenku365.com/zt-90010.html" target="_blank">丨商业材料</a> <a href="https://www.wenku365.com/zt-90013.html" target="_blank">丨合同协议</a> <a href="https://www.wenku365.com/zt-90009.html" target="_blank">丨PPT专题</a></p> </div> </footer> <script src="//static.wenku365.com/wenku365/js/global.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/clipboard.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.treeview.js?"></script> <script src="//static.wenku365.com/wenku365/js/jquery.share.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/common.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/downloadFile.js?"></script> <script src="//static.wenku365.com/wenku365/js/loginWindow.js?"></script> <script src="//static.wenku365.com/wenku365/js/windowRecharge.js?"></script> <script src="//static.wenku365.com/wenku365/js/viewer.min.js?"></script> <script src="//static.wenku365.com/wenku365/js/detail.js?"></script> <!-- 2023-05-07 05:05:36 --> </body> </html>