欢迎来到天天文库
浏览记录
ID:45978127
大小:93.00 KB
页数:7页
时间:2019-11-19
《社交媒体的语义标注应用现状研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、社交媒体的语义标注应用现状研究刘振123张智雄11(中国科学院文献情报中心北京100190)2(徐州工程学院,徐州221008)3(屮国科学院大学,北京100190)LiuzheZhangzhixiong〔1(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190)2(XuzhouInstituteofTechnology,Xuzhou221008)3(UniversityofChineseAcademyofSciences,Beijing100190)[摘要]伴随着社交媒
2、体的发展,为了更实时有效得访问和集成这些跨语言的数据,语义标注发挥了越来越重要的作用,受到越来越多的重视。为了更加全而深入了解社交媒体的语义标注现状,本文首先介绍社交媒体的语义标注方式,然后详细介绍了社交媒体语义标注的主要方法,从关键词短语抽取、基于木体的实体识别、情感分析与观点挖掘和跨媒体联接等角度进行了阐述与分析,另外探讨改进语义标注的效杲的两个途径,最后在此基础上对未來发展进行展望。[关键词]语义标注;社交媒体;信息抽取[分类号]TP18StudyOntheState-of-the-artapplicationofSemanticAn
3、notationofSocialMedia[AbstractlWiththedevelopmentofsocialmedia,inordertomoreeffectivelyaccessandintegratethesecross-languagedata,semanticannotationplaysmoreimportantroleandgetsmoreattention.Inordertounderstandcomprehensivelyandprofoundlythepresentsituationofthefield,thepap
4、erfirstintroducesthemodeofsemanticannotationofsocialmedia,thenelaboratesandanalyzesthemainmethodsofsemanticannotationofsocialmediafromaspectsofkeyphraseextraction,ontology-basedentityidentification,sentimentdetectionandopinionmining,andcross-medialinking.Moreoverthepaperdi
5、scussestwowaystoimprovesemanticannotationofsocialmedia.Finally,basedontheabove,itlookstothefuturedevelopmentofthetechnologies-[KeywordslSemanticAnnotation;SocialMedia;InformationExtractionI引言缶交媒体的数据文木短、噪声大,多为对话,数据实吋发生,需要基于时间和上下文的即时分析处理。如何实吋、冇效和经济地去访问和集成这些多语言的数据,是一个严峻挑战,目而的
6、各种技术在准确性、可伸缩性和便携性都有所欠缺。语义标注把语义模型和自然语言结合在了一起,可以看作是本体和非结构化或半结构化文档之间关联进行双向动态的生成过程,从技术的角度来讲,语义标注是用通过参照在本体里的URI的元数据,用从本体(类、实例、属性或者关系等)里标注在文本里出现的概念。使用文木里出现的新的实例去增强木体这种方法也称为本体填充。社交媒体的自动语义标引可以用于基于语义的搜索、浏览、过滤、推荐、可视化分析以及用户、他们之间的社交网络和在线行为的语义模型建立,还有其他的应用场合例如知识管理、竞争情报、客户关系管理、电子政务、电子商务等
7、。目前的语义标注技术主要是针对新闻文章或者其他较为正式、篇幅较长的Web内容,由丁社交媒体自身具有内容较短,噪声大、跟时间相关、用户产生内容等等这些鲜明的特点,给语义标注技术的发展带来新的挑战。2社交媒体语义标注的方式语义标注可以采用手工、自动化或半自动化等多种方式进行。Passant等⑴提出了语义微博框架模型,以便用户给博文手动的添加机器可读的语义,该框架页支持通过主题标签与关联开放数据进行连接。Hepp等⑵捉出了一个新的对微I■専进行手工语义标注句法,能映射成RDF语句,该句法支持标签、木体属性例如F0AF和在同一个微博里多个RDF语句
8、之间关系。尽管手工语义标注具有一定的价值,但是每天腾讯、新浪等百万条的微博的涌现,亟需自动的语义标引方法。信息抽取,作为一个自然语言分析的方式,日益成为在非结构化文本和在本体中的
此文档下载收益归作者所有