基于仿生模式识别的文本分类技术研究

基于仿生模式识别的文本分类技术研究

ID:34198565

大小:962.56 KB

页数:64页

时间:2019-03-04

基于仿生模式识别的文本分类技术研究_第1页
基于仿生模式识别的文本分类技术研究_第2页
基于仿生模式识别的文本分类技术研究_第3页
基于仿生模式识别的文本分类技术研究_第4页
基于仿生模式识别的文本分类技术研究_第5页
资源描述:

《基于仿生模式识别的文本分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文基于仿生模式识别的文本分类技术研究黄启虎哈尔滨工业大学2008年6月国内图书分类号:TP391.2国际图书分类号:681.37工学硕士学位论文基于仿生模式识别的文本分类技术研究硕士研究生:黄启虎导申请师:王宇颖教授学位:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2008年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheMasterDegreeinEngineeri

2、ngRESEARCHONTEXTCLASSIFICATIONBASEDONBIOMIMETICPATTERNRECONGNITIONCandidate:Supervisor:AcademicDegreeAppliedfor:Specialty:Affiliation:DateofDefence:Degree-Conferring-Institution:HuangQihuProf.WangYuyingMasterofEngineeringComputerScienceandTechnologyScho

3、olofComputerScienceandTechnologyJune,2008HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要互联网时代的来临,使得各种电子文本数据急剧增加,如何快速有效地获取、管理和使用这些文本数据,己经成为信息系统学科迫切需要解决的重要问题。而文本分类技术是信息处理技术的重要研究方向,它是对大量的自然语言文本按照一定的主题类别进行自动分类。传统的文本分类算法(或传统模式识别)都是基于最佳划分的,而仿生模式识别(BiomimeticPatte

4、rnRecognition,BPR)是基于“认识”事物而不是“区分”事物,更符合人类认识世界的本质,所以本文把仿生模式识别的理论应用在文本分类中。仿生模式识别是一种不同于传统模式识别的理论方法,它的理论基点是特征空间中同类样本的连续性(不能分裂成两个彼此不邻接的部分)特性。它通过对同类本的在高维特征空间的最佳覆盖来达到识别样本的目的。本文对仿生模式识别的理论基础、数学工具和实现方式进行了深入的研究学习,提出了用超香肠型神经元(HyperSausageNeuron,HSN)网络实现基于仿生模式识别的文本分

5、类算法。在HSN网络分类算法的基础之上,本文又提出了三种改进方法。对训练样本冗余和噪声的研究,提出了HSN网络和聚类结合的分类算法;对边界样本存在误识别问题的研究,提出了HSN网络的K最高识别算法;而对特征噪声问题的研究提出了二次特征选择算法。此外,还提出了HSN网络和SVM融合的分类算法。在英文数据上,实验结果表明改进的HSN网络分类算法比传统的KNN和SVM分类性能要好;而在中文数据上,改进的HSN分类算法性能要优于KNN,而HSN和SVM融合后分类效果好于它们中的单个分类性能。关键词文本分类;仿

6、生模式识别;特征选择;超香肠神经元网络-I-哈尔滨工业大学工学硕士学位论文AbstractWiththeadventoftheInternetera,theamountofelectronicdataincreasesdramatically.Thustheproblemonhowtoobtain,manageandmakefulluseofthetextdatahasbecomeanurgentissueininformationscience.AndTextclassification(TC)isa

7、veryimportantresearchfieldofinformationtechnology,whichcategorizenaturallanguagetextsaccordingtogiventopics.BiomimeticPatternRecognition(BPR)isbasedon“mattercognition”insteadof“matterclassification”,itisbetterclosertothefunctionofhumanbeing,ratherthantra

8、ditionaltextclassification(ortraditionalpatternrecognition)using“optimalseparating”asitsmainprinciple.SoweapplyBPRprincipletotextclassificationinthispaper.BPRisanewtheorywhichisdifferentfromtraditionalpatternrecognition.Th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。