欢迎来到天天文库
浏览记录
ID:9826607
大小:1.72 MB
页数:101页
时间:2018-05-11
《北京大学博士研究生学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京大学博士研究生学位论文题目:中文网页自动分类技术研究及其在搜索引擎中的应用姓名:冯是聪学号:10008826院系:计算机科学技术系专业:计算机软件与理论研究方向:计算机网络与分布式系统导师:李晓明教授2003年5月AStudyontheTechnologyofChineseWebPageAutomaticCategorizationandItsApplicationtoSearchEngineDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeo
2、fDoctorofPhilosophyByShi-congFeng(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMAY,2003声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者授权,不得将本论文转借他人并复印、抄录、拍照、或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。北京大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其它个人或集体已经发
3、表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:2003年6月8日摘要摘要为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识和信息,人们希望能够按照其内容实现对网页的自动分类。Web的迅猛发展为文档自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战,需要在传统的技术基础之上,开展针对Web网页特性的研究工作。本文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:⑴影响分类
4、器性能的关键因素的定量分析针对影响分类器性能的两个基本指标(分类质量和分类效率)及其相互关系,本文从系统的角度出发,综合地考虑了影响分类器性能的各种关键因素,并且通过定量地分析这些因素,提出了一种新的中文网页分类器的设计方案。实验结果表明,应用该方案设计实现的中文网页分类器不仅具有较高的分类质量,而且同时具有较高的分类效率,满足了处理大规模中文网页的要求。⑵中文网页内“噪音”的自动清除同普通文档相比,网页的设计比较随意,通常都包含大量“噪音”,这些“噪音”影响了网页分类的质量。为此,本文提出了一种自动从中文网页中自动清除“噪音”的方法。该方法通过利用中文网页的结构信息和
5、内容信息,并结合中文网页自动分类技术,实现了自动从中文网页中自动清除“噪音”。实验结果表明,该方法不仅可以有效地从中文网页中自动清除“噪音”,而且,还可以有效地改进中文网页分类器的分类质量。⑶从搜索引擎日志中学习新词44摘要针对直接从专业语料库中学习新词所面临的困难,本文提出了一种从搜索引擎日志中学习新词的方法。同传统的方法相比,该方法具有学习效率和准确率高、不受领域的局限、实现简单、易于推广等优点。该方法的基本思想是,根据用户查询词的长度分布特性和频度分布特性以及分词系统的先验知识,从所有汉字组合模式中尽可能地排除无效的组合模式,从而提高了学习新词的效率和准确性。实验
6、结果表明,该方法不仅可以有效地从搜索引擎日志中学习新词,为新词的自动学习提供了一种新的思路,而且,通过不断扩大分词字典的规模,还可以有效地改进网页分类质量。⑷应用中文网页的自动分类技术,在“自动式”搜索引擎“天网”系统中同时提供目录导航服务为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,本文应用中文网页自动分类技术,在“自动式”搜索引擎系统中实现了目录导航服务。这种同时具有目录导航功能的“自动式”搜索引擎系统,不仅能够维护大规模的网页,而且具有较高的查准率。关键词:搜索引擎,Web挖掘,中文网页自动分类,定量分析,噪音清除,新词学习,目录导航44Abstra
7、ctAbstractToeffectivelyorganizeandanalyzemassiveWebinformationresourceandhelpuserstopromptlygetknowledgeandinformationtheyneed,itneedstoimplementWebpagesautomaticcategorizationbytheircontents.ThepromptdevelopmentofWebnotonlyprovidesanunprecedentedexperimentenvironmentanda
此文档下载收益归作者所有