自动分类在搜索引擎性能优化中的应用

自动分类在搜索引擎性能优化中的应用

ID:12415168

大小:110.00 KB

页数:12页

时间:2018-07-16

自动分类在搜索引擎性能优化中的应用_第1页
自动分类在搜索引擎性能优化中的应用_第2页
自动分类在搜索引擎性能优化中的应用_第3页
自动分类在搜索引擎性能优化中的应用_第4页
自动分类在搜索引擎性能优化中的应用_第5页
资源描述:

《自动分类在搜索引擎性能优化中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、自动分类在搜索引擎性能优化中的应用曹树金杨涛(中山大学信息管理系广州510275)摘要:本文论述了自动分类在搜索引擎中的作用,介绍了网页自动分类实现的方法,分析了网络自动分类系统的实例,最后展望了自动分类在搜索引擎中的应用前景。关键词:自动分类搜索引擎性能优化中图法分类号:G354.4文献标识码:AApplicationofautomaticclassificationinthesearchengine’soptimizationCaoShujinYangTao(DepartmentofInformationManagement,SunYat-SenUnive

2、rsity,Guangzhou,510275)Abstract:Thispaperdiscussesautomaticclassification’stypesandfunctions.Thenintroducesthemethodstorealizeautomaticclassification.Italsoanalysessomesearchenginesthathaveadoptedautomaticclassification.Atlast,itanticipatestheuseofautomaticclassification.KeyWords:Au

3、tomaticclassification;Searchengine;Performanceoptimization根据中国互联网信息中心2003年1月发布的《中国互联网络发展状况统计报告》,用户经常使用的网络服务中搜索引擎占68.3%,用户得知新网站的主要途径中搜索引擎占84.6[1]%。搜索引擎现在已成为用户利用因特网信息资源所不可缺少的工具。但是搜索引擎现在的性能还不能令人满意,性能亟待优化。本文就将探讨如何利用自动分类来对搜索引擎的性能进行优化。1自动分类的种类和作用1.1自动分类的种类自动分类就是用计算机系统代替人工对文献等对象进行分类,一般包括自动

4、聚类和自动归类。自动聚类指的是由计算机系统按照被考察对象的内部或者外部特征,按照一定的要求(如类别的数量限制,同类对象的亲近程度等等),将相近、相似或者相同特征的对象聚合在一起的过程。自动归类是指计算机系统按照一定的分类标准或者分类参考,将被考察对象划归到不同类目的过程。[2]12自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的自动分类是指

5、对网页的自动分类,包括网页的自动归类和自动聚类。1.2自动分类的作用目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。它浏览的对象是网站,目录分类的质量较高,检索效果好;但是成本高、信息更新慢、维护的工作量大。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预;但是返回信息过多,质量太低。目前,很少搜索引擎提供对网页的分类浏览或检索,其原因之一是由人工进行网页的分类几乎是不可能的。如果能够实施网页的自动分分类,就可以实现网页标引和检索的分类主题一体化,搜索引擎就能够兼有分类浏览、检索

6、和关键词检索的优点,同时具备族性检索和特性检索的功能;能够深入到网页层次,帮助用户迅速的判断返回的结果是否符合自己的检索要求。例如在关键词检索中用熊猫作为检索词,返回的结果中作为动物的熊猫、作为一种杀毒软件的熊猫和作为一种电子产品的熊猫等内容是夹杂在一起的,用户要对结果进行分析判断,才能确定那些是自己需要的。如果采用了自动分类技术,就可将不同的内容分到不同的类目中去,从而节省用户的判断时间,提高检索效率。2自动分类的实现方法2.1自动归类的实现方法根据分类知识的获取方法不同,可以将文本自动分类系统分为两种类型:基于知识工程的分类系统和基于统计的分类系统。基于知

7、识工程的方法主要依赖语言学知识,需要编制大量的推理规则作为分类知识,实现相当复杂,而且其开发费用相当昂贵。这方面的系统有卡内基集团为路透社开发的Construe系统。现在应用比较多的是基于统计的自动分类系统,它忽略文本的语言学结构,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。向量空间模型是基于统计的分类系统中广泛采用的文本计算模型。向量空间模型可以将给定的文本转换成一个维数很高的向量。向量空间模型最突出的特点是可以方便的计算出两个向量的相似度,即向

8、量所对应的文本的相似性。在向量空间模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。