中文维基百科类别推荐的研究

中文维基百科类别推荐的研究

ID:33637693

大小:7.23 MB

页数:51页

时间:2019-02-27

中文维基百科类别推荐的研究_第1页
中文维基百科类别推荐的研究_第2页
中文维基百科类别推荐的研究_第3页
中文维基百科类别推荐的研究_第4页
中文维基百科类别推荐的研究_第5页
资源描述:

《中文维基百科类别推荐的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、⑩硕士学位论文MASTER‘STHESISResearchinCategoryRecommenaation0tChineselhl·‘■●—’10‘WikipediaATheSiSSubmittedinPartialFulfillmentoftheRequirementFortheM.s.DegreeinComputerApplicationTechnologyWangJingPostgraduateProgramSchoolofComputerCentralChinaNormalUniversitySupervisor:

2、HeTingtingAcademicTitle:ProfessorSignatureApprovedMay.2013⑥硕士学位论文MASTER。STHESIS华中师范大学学位论文原创性声明和使用粼明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。作者签名:王督日期:为『;年厂月q日学位论文版权使用授权书学

3、位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密,在——年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。作者签名:王前日期:仍”年f月27日导师叛彳万劣备亏日期:沙『J年石月

4、夕日本人已经认真阅读“CALIS高校学位论文全文数据库发布章程”,同意将本人的学位论文提交“CALIS高校学位论文全文数据库”中全文发布,并可按“章程”中的规定享受相关权益。回童途塞握窒后进卮;旦主生;旦二生;旦三生筮查!作者签名:£向日期:加侈年歹月27日导师始厶百彳芳步日期.渺年易月岁日⑩硕士学位论文MASTER‘STHESIS摘要作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根据分类索引层层搜索,任意浏

5、览自己感兴趣的维基百科文章内容。所有的维基百科条目内容由志愿者遵循一定规则编辑而成,而传统的人工编辑过程,志愿者由于缺乏对整个维基百科类别系统的了解,容易标注出重复或者不规范的类别,造成类别标注的杂乱。针对人工编辑的耗时费力,本文提出为中文维基百科自动推荐类别。然而,维基百科的类别有其特殊性,它被称为“开放分类”,既是能描述文章所属类别的分类类别,又可以看成用户即志愿者为该词条贴上的类别标签,如此看来,维基百科类别推荐问题既是标签推荐问题又是网页分类问题。另外,与传统分类不同的是维基百科的类别数量很多,并且所有类别之间不是

6、平行关系而是有上下位层次结构的,传统的分类器方法不再适用。因此本文考虑从协同过滤和深分类两个方面为中文维基百科自动推荐类别,所做的工作体现在以下两个方面:第一、把维基百科类别推荐问题看作标签推荐问题,采用最常用的推荐算法,即协同过滤,为新的维基百科文章推荐类别标注。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好

7、地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。第二、把维基百科类别推荐问题看作网页分类问题,采用一种特别针对于大规模层次结构类别的分类算法,即深分类方法,对新的目标文章进行分类。整个过程分为查询模块和分类模块两个步骤。将协同过滤方法得到的相关候选类别集作为查询模块的结果,缩小了需要进行分类的类别数量。分类模块将查询模块得到的候选类别集作为朴素贝叶斯分类器的训练语料,将目标文章作为分类器的测试输入从而得到分类结果。从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工挑选的类别进行

8、对比,验证了深分类方法的有效性。关键词:维基百科;类别推荐;协同过滤;深分类AbstractAsarepresentativeoftheonlineencyclopedia,Wikipediahasbecomearepositoryfortheuserstoobtainknowledge.AlltheW

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。