欢迎来到天天文库
浏览记录
ID:32305542
大小:2.00 MB
页数:51页
时间:2019-02-03
《面向信息检索的智能分类方法研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东师范大学硕士学位论文面向信息检索的智能分类方法研究姓名:呼声波申请学位级别:硕士专业:管理科学与工程指导教师:刘希玉20080526山东师范大学硕士学位论文面向信息检索的智能分类方法研究摘要随着互联网技术的不断发展,Internet上的信息日益丰富,已经成为人们日常工作和生活中获取信息的重要来源。但是,由于Internet所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。因此,如何合理有效地组织和管理Internet上的信息,已经日益成为信息处理领域一个十分重
2、要的研究课题。面对web上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在许多弊端:一是耗费大量的人力、物力和财力。二是存在分类结果一致性不高的问题。即使分类人的语言素质较高,对于不同的人分类,其分类结果仍然不尽相同。甚至同一个人,在不同时间做分类也可能会有不同的结果。因此,人们对网页智能分类技术的需要越来越迫切。本文在研究传统信息检索技术实现的同时,结合现有的网页分类技术,对网页智能分类进行了较为系统的研究。在
3、此基础上对面向信息检索的智能分类中的网页预处理、中文分词、特征提取、网页分类提出了一定的思考和见解。本文的主要创新点:(1)针对网页结构的特点,分析了网页中对分类过程有贡献的信息成分,改进了从中文网页内自动清除“噪音”并提取正文的行之有效的方法。(2)研究了现有网页源代码的特点,把网页表示成树型层次结构,每个叶子节点赋予不同的权重:在传统的特征词权重计算公式的基础上,考虑了特征词的长度和特征词出现的位置两个因素,提出了基于网页标签树型层次结构的特征词权重计算公式。(3)介绍了传统的特征提取算法,
4、并在Z2统计量的基础上,对Z2统计量公式做了两点改进。(4)研究了现有的网页分类方法。KNN分类算法为了找到与测试文本距离最近(最相似)的K篇文本,需要穷尽搜索整个训练集,在训练样本数较多或者表示样本的特征向量维数较高时,计算复杂性就很高。针对这~问题,本文在粒子群算法的基础上,提出了一种智能快速寻找新文本的X个近邻的PSOKNN算法。(5)对IG、MI、CHI、CHI木四种统计量的实验结果做出了评价。通过实验证明本文所采用的特征词提取方式,在一定程度上,能够得到较高的分类准确率,存山东师范大学
5、硕士学位论文在一定的合理性。关键词:信息检索中文分词特征提取智能分类KNN分类算法分类号:TP39山东师范大学硕士学位论文InteIligentcIassificationmethodresearchonjnformationretrievaIABSTRACTWiththecontinualdeVelopmentofinternettechnology,theinformationofinternetismoreandmorerich,whichhasbecomeanimportantresou
6、rceofhumanacquiringinformationindaily1ifeandwork.Whilefortheintrinsicopennessandisomerismofinternet,itisverydifficultforusertoexactlypositiontheirrequiredinformationamongnumerousandcomplicatedinformation,therefore,howtoreasonablyandaffectivelyorganiz
7、eandmanageinternetinformationhasbecomeaveryimportantresearchsubjectdaybydayininformationprocessingrealm.ForthenumerousinformationOfinternet,thetraditionaloperationistopracticemanualclassification,organizeandprocessingandofferpeoplerelativelyeffective
8、informationacquisitionmethod.But,themanualclassificationhasmuchdisadvantage:oneistheconsumptionofnumerousmanpower,materialresourcesandfinancialresources.Twoisthe10wconsistencyofclassificationresult.Evenclassifyingpeoplehashigh1anguagequality,differen
此文档下载收益归作者所有