多语言标签聚类及其应用研究

多语言标签聚类及其应用研究

ID:34602907

大小:16.74 MB

页数:70页

时间:2019-03-08

多语言标签聚类及其应用研究_第1页
多语言标签聚类及其应用研究_第2页
多语言标签聚类及其应用研究_第3页
多语言标签聚类及其应用研究_第4页
多语言标签聚类及其应用研究_第5页
资源描述:

《多语言标签聚类及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文多语言标签聚类及其应用研究作者:汤丽娟指导教师:章成志副研究员南京理工大学2013年3月Master’SThesisMultilingualTagsClusteringandItsApplicationByLijuanTangSupervisedbyA.尸Cheng-zhiZhangNanjingUniversityofScience&TechnologyMarch,2013声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一

2、同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:擗砂/参年乡月≯,日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。研究生虢洳崞砩年稠叫日硕士论文多语言标签聚类及其应用研究摘要社会化标签是指互联网用户自由地对文档、图片、视频等资源对象定义的一个或多个描述,由于其个性化特点被广泛应用于各大网站系统。社会化标签对用户有着至关重要的意义,用户可以通过标签对资源进行储存、组织、管理、共

3、享等。然而随着用户及标签规模的不断扩大,大多数标签变成冗余信息,要从大量信息中通过标签检索获取相关信息变得越来越困难,因此如何获得对用户有意义的标签变得尤为重要。另外,社会化标签的语义异构问题也日益加剧,通过对标签的聚类可以将语义上相似的标签聚集,从而有效解决标签的语义异构问题,并且在此基础上实现的社会关系网络发现,可以实现好友推荐。除此之外,目前的社会化标签系统往往是单语言的,在对多语言标签聚类的基础上实现多语言标签的映射,可以解决标签语言异构问题。本文采用不同的标签自动抽取算法分别对博文正文信息进行标签抽取,在标签抽取的基础上形成复合标签,并与用户给定的标签进行比较分析。实验结果表明

4、自动抽取的标签可以作为用户标注标签的有效补充,对用户标注的标签有一定参考价值。在标签聚类方面,采用分裂式层次聚类算法分别对用户标注的标签以及机器抽取的标签进行聚类,比较两种不同来源下的标签聚类结果。实验结果表明用户标注的标签聚类效果明显好于机器抽取标签的聚类结果。在中英文标签聚类的基础上,采用先聚类后翻译的映射策略及基于机器翻译的映射方法进行中英文标签的映射研究。并将映射的研究用于标签的具体应用上。在标签聚类的应用方面,我们选择与某一产品相关联的微博信息进行企业产品信息监测研究。通过采集相关用户的描述标签与博文信息,对标签和博文分别聚类,从而发现兴趣社区与热门话题。另外,我们尝试实现多语

5、环境下基于标签映射的社会关系网络发现,从而为实现多语环境下的好友推荐提供参考依据。关键词:社会化标签,标签抽取,标签聚类,聚类结果映射,社会关系网络AbstractTagsareproductsofWeb2.0,theyarewidelyusedbecauseoftheirpersonalizationfeatures·Intemetusersalwaysusetagstodescribedocuments,picturesandvideos.HoweveLinf.onnationrc:仃ievalbecomesmoreandmoredifficultwiththelargeexpans

6、ionoftags·Ontheotherhand,semanticheterogeneityoftagsisincreasing,clusteringtagscansolvethisproblem,andwecandiscoversocialnetworksbasedonclusteringtags·Inthispaper,tagsfromblogsareextractedbyusingdifferentalgorithmsrespectively.Wealsooptimizetheextractiontagsandcomparethemwithusers’tags.Experiment

7、resultsshowthattheperformanceofthesetwoalgorithmsisveryclosely.Divisivehiera鹏hicalclusteringalgorithmisusedtoclustertags.Users’tagsandextractiontagsa1.eclusteredrespectively.Theauthoralsotriestodiscoversocialnetworksby

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。