基于svm的文本信息过滤算法研究

基于svm的文本信息过滤算法研究

ID:35058768

大小:5.08 MB

页数:68页

时间:2019-03-17

基于svm的文本信息过滤算法研究_第1页
基于svm的文本信息过滤算法研究_第2页
基于svm的文本信息过滤算法研究_第3页
基于svm的文本信息过滤算法研究_第4页
基于svm的文本信息过滤算法研究_第5页
资源描述:

《基于svm的文本信息过滤算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP30L6单位代码:10183研巧生学号:2013532061密级:公开馨古林大学硕古学位论文聲术学位()基于SVM的文本信息过滤算法研究Researchonfnteringalgori化msoftextinformationbasedonSVM作者獲名:张高样专业:计算机软件与理论研究方向:数据库与智能网络指导教师:董立岩教授培养单位:计算机科学与技术学院20化年5月未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位

2、和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此。否则限),应承担侵权的法律责任。吉林大学硕±学位论文原创性声明本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研巧做出重要贡献的个人和集体,均己在文中从明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名;日

3、期;2016年r月公r曰基于SVM的文本信息过滤算法研究ResearchonfilteringalgorithmsoftextinformationbasedonSVM作者姓名:张高祥专业名称:计算机软件与理论指导教师:董立岩教授学位类别:工学硕士答辩日期:2016年5月25日摘要摘要基于SVM的文本信息过滤算法研究当今社会,信息资源非常丰富,已成为行业竞争的焦点,谁掌握了信息资源谁就掌握了未来。随着互联网、信息技术的迅速发展,数据存贮技术越来越高,因此计算机能够读取的文本信息也就逐渐增多。相对于一些特定的用户来说,他们需要的信息通

4、常只是这些信息中特别少的一部分。随着特定用户和规模庞大的信息资源对特定文本信息的需求逐渐增多,信息用户急需一套大规模文本信息处理软件。但是,要想从规模庞大的信息资源中获得用户所需的文本信息,对文本信息处理的精确度、准确性的要求较高。文本信息过滤算法主要研究的是怎样把用户的需求准确地表达出来,然后用户在规模庞大的信息资源中自动获取所需的有用信息。目前,英语在国际交流上是一种最常用的通用语言,而且对于国际化企业来说,有价值的信息资料一般都是用英文存档的,因此,对英文文本信息过滤进行研究具实用价值和现实意义。文本信息过滤是通过计算机对文本信息

5、进行自动过滤的过程,是在文本信息内容的基础上对文本信息进行自动分类、过滤的一种核心技术。由于文本信息过滤问题具有信息特征间的相关性大、文本向量稀维数高、稀疏性大等特点,支持向量机(SVM)适用于文本信息过滤问题,在文本信息过滤中的应用潜力非常大。在文本信息过滤过程中,怎样降低特征向量空间的高维性,实现文本信息过滤算法的高效性,是急需解决的一个首要问题。因此,本文从特征值提取算法选取、信息过滤算法改进,算法参数优化等方面分别做了相应的研究,具体包括以下几个方面工作:1、分析传统特征提取方法的特点,在分析原有CHI特征选择和信息增益特征选择

6、优缺点的基础上,提出了一种维数自适应结合的特征选择方法。通过实验对比传统的CHI特征选择、信息增益和维数自适应结合方法,维数自适应结合方法使得训练数据的交叉验证准确率以及训练验证准确率得到显著提高。2、针对SVM在训练过程中存在不平衡样本以及无用样本的缺点,并且在I摘要文本过滤中存在一些判别困难区域,本文采取了融合K-Means算法进行改进,通过K-Means算法选取合适的SVM训练子集,进而优化训练样本;通过确定正例样本聚类中心集区域,在进行SVM文本信息过滤时,对于判别困难的数据可以再次进行聚类决策,提高SVM算法在信息过滤中的精度

7、。3、在SVM算法实际应用中,惩罚因子、核函数及其核参数这三个参数对分类精度影响较大。本文采用了一种可变步长迭代选取算法,以交叉验证准确率最佳为目的,通过粗选、精选两个过程,从而快速的确定最优参数。实验证明,改进的SVM算法,在文本信息过滤过程中,查准率、查全率以及F值等评测指标有显著的提高。4、在算法研究基础上,本文采用C#语言调用C++组件进行了算法系统化实现,并对该算法做了实际运行测试。实验证明,基于SVM的文本信息过滤算法的过滤性能较好。关键词:信息过滤,英文文本,特征提取,支持向量机,机器学习IIAbstractAbstrac

8、tResearchonfilteringalgorithmsoftextinformationbasedonSVMNowadays,informationisveryrichinresources,info

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。