基于维基百科的短文本处理方法

基于维基百科的短文本处理方法

ID:35069391

大小:3.54 MB

页数:92页

时间:2019-03-17

基于维基百科的短文本处理方法_第1页
基于维基百科的短文本处理方法_第2页
基于维基百科的短文本处理方法_第3页
基于维基百科的短文本处理方法_第4页
基于维基百科的短文本处理方法_第5页
资源描述:

《基于维基百科的短文本处理方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:TP391密级:公开UDC:620学校代码:10094硕士学位论文(学历硕士)基于维基百科的短文本处理方法ShortTextProcessingMethodBasedonWikipedia研究生姓名:罗燕指导教师:赵书良教授学科专业:软件工程研究方向:数据仓库与数据挖掘论文开题日期:2015年04月23日二〇一六年三月二十一日中图分类号:TP391密级:公开UDC:620学校代码:10094硕士学位论文(学历硕士)基于维基百科的短文本处理方法ShortTextProcessingMethodBasedonWikipedia作者姓名:罗燕指导教师:赵书良教授学科专业:软件工程研究

2、方向:数据仓库与数据挖掘论文开题日期:2015年04月23日I学位论文原创性声明本人所提交的学位论文《基于维基百科的短文本处理方法》,是在导师的指导下,独立进行研究工作所取得的原创性成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中标明。本声明的法律后果由本人承担。学位论文版权使用授权书本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手

3、段保存、汇编学位论文。(保密的学位论文在年解密后适用本授权书)II摘要随着即时通讯和互联网技术的普及,多元化社交体系逐步形成,短文本数据量与日俱增,如何处理大量的短文本数据尤为重要。短文本具有内容简短,特征稀疏等特点,普通文本分类方法并不适用于短文本,短文本分类成为目前的研究重点与难点。国内外学者对短文本分类的研究主要集中在短文本处理与分类算法改进两个方面。论文主要从短文本处理方面入手,对短文本词义消歧、特征扩展进行研究,最后利用常用的文本分类算法对处理后的短文本进行分类。鉴于维基百科具有数据全面、语义丰富等特点,论文将其作为外部知识库,提出基于维基百科的短文本词义消歧方法与特征扩展方法,

4、解决短文本中的一词多义问题与特征稀疏问题,有效提高了短文本分类性能。主要工作如下:1)提出基于词频统计的TF-IDF算法针对传统TF-IDF(TermFrequency-InverseDocumentFrequency)算法关键词提取效率低下及准确率欠佳的问题,提出基于词频统计的TF-IDF算法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律与传统TF-IDF算法相结合,提出基于词频统计的TF-IDF算法——TFIDFWFS(TF-IDFAlgorithmBasedonWordFr

5、equencyStatistics)。采用中、英文文本实验数据集进行仿真实验,结果表明,在文本关键词提取中,TFIDFWFS在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效降低关键词提取的运行时间。2)提出面向维基百科的TFIDFWFS算法针对TFIDFWFS算法未考虑维基百科页面特点的问题,提出面向维基百科的TFIDFWFS算法,选择最具代表性的特征词来表示维基百科词条。首先,结合维基百科文本结构特点,提出基于文本结构加权的TF方法;其次,结合锚文本信息特点,提出基于锚文本加权的TF方法;然后,结合类别信息特点,提出基于类别信息加权的TF-IDF方法;最后,将维基百科页

6、面特点与TFIDFWFS算法相结合,提出面向维基百科的TFIDFWFS算法——W-TFIDFWFS(WikipediaOrientedTF-IDFAlgorithmBasedonWordFrequencyStatistics)。III采用中、英文维基百科数据集进行仿真实验,结果表明,在对维基百科页面进行关键词提取时,W-TFIDFWFS在查准率、查全率及F1指标上均优于TFIDFWFS算法,可比较准确地计算特征词权重,有效提取维基百科页面核心信息。3)提出基于维基百科的短文本词义消歧方法针对短文本中的一词多义问题,提出基于维基百科的短文本词义消歧方法——STWSDMW(ShortTextW

7、ordSenseDisambiguationMethodBasedonWikipedia)。首先,从维基百科消歧页面中获得待消歧词的消歧候选集合;其次,获得短文本中无歧义特征词对应的维基条目标题集合;然后,计算每一个消歧候选词的相似度得分函数值;最后,选择相似度得分值最大的消歧候选词作为最终的消歧结果。选取中、英文短文本实验数据集进行验证,实验表明,采用STWSDMW方法对短文本进行词义消歧可有效提高短文本分类性能。4)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。