大规模词对抽取系统研究

大规模词对抽取系统研究

ID:36558789

大小:4.39 MB

页数:55页

时间:2019-05-12

大规模词对抽取系统研究_第1页
大规模词对抽取系统研究_第2页
大规模词对抽取系统研究_第3页
大规模词对抽取系统研究_第4页
大规模词对抽取系统研究_第5页
资源描述:

《大规模词对抽取系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391.1密级公开重庆邮电大学硕士学位论文论文题目大规模词对抽取系统研究英文题目StudyonLarge-scaleWordPairExtractionSystem硕士研究生指导教师学科专业蒋海平樊兴华教授计算机应用技术论文提交日期2Q12生Q垒旦论文答辩日期2Q12生.Q§月2鱼旦论文评阅人答辩委员会主席余建桥教授西南大学2012年05月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果

2、,也不包含为获得重麽邮电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:橇荡亭签字目期:私R年(月‘R学位论文版权使用授权书本学位论文作者完全了解重瘥鲣电太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权重庆逝史盔堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学

3、位论文作者签名:梅论丰签字日期:bf乙年6月6日导师签名:签字日期:日重庆邮电大学硕士论文摘要随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。由于短文本具有长度短、所描述概念信号弱的固有缺陷,使得当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的

4、一种可行性途径是利用外部资源的额外信息来扩展短文本所描述的信息量。鉴于此,本文利用词对抽取理论,从短文本训练语料集中挖掘出具有上下位关系、角色关系的词对,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:(1)设计并实现一个大规模词对抽取系统。选择词对抽取理论作为挖掘工具,用来发现隐藏在短文本训练语料集中具有上下位关系、角色关系的词对,以便辅助短文本分类。(2)考察组合上下位关系、角色关系的方法对短文本分类的影响。利用组合方法获取短文本训练语料集中

5、存在上下位关系、角色关系的词对,再利用关系词对集合扩展短文本测试语料集的特征向量,进而将扩展的测试集进行文本分类。(3)设计并实现一种面向大规模词对集合的高效存储结构,改善词对抽取和短文本分类的效率。由于需要处理的词对规模较大,传统的B+树只能加载部分到内存,这导致一次查询操作可能产生多次磁盘随机I/0,且在大量随机插入情况下,页分裂较多,磁盘随机I/0增加。此外,逻辑有序的页在磁盘上并不一定相邻,影响了范围查询的性能。针对B+树的以上缺陷,本文设计一种新的存储结构,将磁盘的全部随机写转化为顺序写,且支持磁盘的多页I/0

6、优化。实验证明:该存储结构的更新性能、范围查询性能明显优于传统的B+树,且随机查询性能相对稳定。关键词:短文本,文本分类,词对抽取,索引机制,存储结构重庆邮电大堂堡主丝塞垒!!皇竺!AbstractWiththerapiddevelopmentoftheInternetandcommunicationindustry,variousformofinformationhasrushedtowardUS.AsthemajorrepresentativeformofinformationsuchasSMS,onlinechar

7、tingandNetizencomments,short.text,whichalwayshasnomorethan160characters,hasbecometheimportantchannelforthedisseminationofpublicinformation.Short—textcategorizationtechnology,whichdeliverstheshort—texttosomepre‘definedcategoriesbasedonitscontentanalysis,hasanimpor

8、tantapplicationperspectiveintheareaofinformationsecurityandbusinessinformationacquisition.Owingtothefactthattheshort.texthasinherentdefectssuchasshortlength,we

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。