欢迎来到天天文库
浏览记录
ID:5973894
大小:42.00 KB
页数:16页
时间:2017-12-30
《社交媒体语义标注应用现状探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、社交媒体语义标注应用现状探究摘要:伴随着社交媒体的发展,为了更实时有效地访问和集成这些跨语言的数据,语义标注发挥了越来越重要的作用,受到越来越多的重视。为了更加全面深入了解社交媒体的语义标注现状,文章首先介绍社交媒体的语义标注方式,然后详细介绍了社交媒体语义标注的主要方法,从关键词短语抽取、基于本体的实体识别、情感分析与观点挖掘和跨媒体联接等角度进行了阐述与分析,另外探讨了改进语义标注效果的两个途径,最后在此基础上对未来发展进行展望。关键词:语义标注社交媒体信息抽取中图分类号:TP311文献标识码:A文章编号:1003-6938(2013)05-00
2、95-051引言社交媒体的数据文本短、噪声大,多为对话,数据实时发生,需要基于时间和上下文的即时分析处理。如何实时、有效和经济地去访问和集成这些多语言的数据,是一个严峻挑战,目前的各种技术在准确性、可伸缩性和便携性方面都有所欠缺。16语义标注把语义模型和自然语言结合在了一起,可以看作是本体和非结构化或半结构化文档之间的关联进行双向动态的生成过程,从技术的角度来讲,语义标注是通过参照在本体里的URI的元数据,从本体(类、实例、属性或者关系等)里标注在文本里出现的概念。使用文本里出现的新的实例去增强本体的方法也称为本体填充。社交媒体的自动语义标引可以用于
3、基于语义的搜索、浏览、过滤、推荐、可视化分析用户以及用户之间的社交网络和在线行为的语义模型建立,还有其他的应用场合例如知识管理、竞争情报、客户关系管理、电子政务、电子商务等。目前的语义标注技术主要是针对新闻文章或者其他较为正式、篇幅较长的Web内容,由于社交媒体自身具有内容较短、噪声大、跟时间相关、用户产生内容等这些鲜明的特点,给语义标注技术的发展带来新的挑战。2社交媒体语义标注的方式语义标注可以采用手工、自动化或半自动化等多种方式进行。Passant等[1]提出了语义微博框架模型,以便用户给博文手动的添加机器可读的语义,该框架也支持通过主题标签与关
4、联开放数据进行连接。Hepp等[2]提出了一个新的对微博进行手工语义标注句法,能映射成RDF语句,该句法支持标签、本体属性,例如FOAF和在同一个微博里多个RDF语句之间关系。尽管手工语义标注具有一定的价值,但是每天腾讯、新浪等百万条微博的涌现,亟需自动的语义标引方法。16信息抽取,作为一个自然语言分析的方式,日益成为在非结构化文本和在本体中的规范化知识之间建起沟通桥梁的关键技术。基于本体的信息抽取就是适用于语义标注的任务,传统的信息抽取和基于本体的信息抽取的一个显著区别就是规范化的本体作为系统的输入和输出,有些信息抽取系统只是把系统输出和本体做一个
5、映射,这些系统严格来讲,应该称为面向本体的系统。基于本体的信息抽取另一个显著的特点是它不仅仅发现被抽取的实体的类型,而且还要把它跟目标知识库里的关于它的语义描述关联起来,通常用一个URI方式识别它,在抽取过程中需要在文档内和文档间进行命名实体、术语、关系等自动识别和共指消解。关联开放数据资源,例如DBpedia,YAGO和Freebase等已经成为语义标注本体知识的关键来源,也作为用来消歧的目标本体知识库,他们提供了交叉引用、领域无关的数万条类和关系以及数百万条的实例,一个关联、互补的代名词的资源集合,对应于维基百科的条目和其他外部数据的概念和实例,
6、丰富的类层次用于细粒度分类命名实体,而关于数百万实例和对应维基百科条目的链接的知识也是基于本体抽取系统的一个特点。3社交媒体语义标注的主要方法3.1关键短语抽取16自动抽取出的关键句可以表示出一个文档或文档集的主题,但不能有效的表达论点或者所有的观点,关键短语抽取因此被认为是一种浅表知识抽取,它也作为降维手段,允许系统处理较小集合的重要的术语而不是全文,用于上下文的语义标注和索引。一些关键词语方法利用了术语共现形成术语的图,边为一对术语共现的距离,给顶点分配一定的权重,WWu等研究表明这一类的术语抽取方法相对依赖于文本模型的方法,在Twitter数据
7、上表现更优。这些基于图的方法在从Twitter中抽取关键短语之所以取得了良好的效果,原因在于这个领域包括了大量的冗余,有利于形成关键词摘要。但主题的多样性增加了抽取一系列相关和准确的关键词的难度,Xin等[3]在关键词组抽取中结合了主题建模来解决该问题。当前的相关研究主要是使用该方法来产生新的标签,Qu等[4]在基于词性标签的基础上,从n-gram产生候选的关键短语,然后使用一个监督逻辑回归分类器进行过滤。该方法还可以和分众分类法进一步结合,产生标签签名,例如把分众分类法中的每一个标签和加权的、语义相关的术语联系起来,针对新的博文和帖子,进行比较和排
8、序这些标签,从而推荐一些最相关的标签。3.2社交媒体中的基于本体的实体识别16基于本体的实体识别一般分为两个
此文档下载收益归作者所有