大数据挖掘,数据结构化首当其冲.doc

大数据挖掘,数据结构化首当其冲.doc

ID:27904692

大小:104.00 KB

页数:5页

时间:2018-12-06

大数据挖掘,数据结构化首当其冲.doc_第1页
大数据挖掘,数据结构化首当其冲.doc_第2页
大数据挖掘,数据结构化首当其冲.doc_第3页
大数据挖掘,数据结构化首当其冲.doc_第4页
大数据挖掘,数据结构化首当其冲.doc_第5页
资源描述:

《大数据挖掘,数据结构化首当其冲.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据挖掘,数据结构化首当其冲  现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。  ——韩家炜  2018中国人工智能大会(C

2、CAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。  适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。    韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力,发表论文600余篇,出版多部专著。曾担任国际知

3、名会议KDD、SDM和ICDM程序委员会主席,创办了学术期刊ACMTKDD并担任主编。曾荣获2004ACMSIGKDD创新奖、2005IEEE计算机分会技术成就奖、2009IEEE计算机协会的M.WallaceMcDowell奖。他的专著DataMining:ConceptsandTechniques被公认为数据挖掘领域的经典教材。  大数据挖掘,数据结构化首当其冲  大数据(Bigdata或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模十分巨大,以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的

4、信息。在总数据量相同的情况下,与个别分析独立的小型数据集(dataset)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。  我们这个时代,由于互联网的发展,产生了大量数据。这些数据中绝大部分(超过80%)都是以文本等无结构或半结构的方式存储。所以,挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据,也就是说,要实现从BigData到ActionableKnowledge的转变。  韩家炜认为,要将无结构的Bi

5、gData变成有用的Knowledge,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(HeterogeneousNetwork),另一种是多维文本立方体(Multi-dimensionalTextCube)。由结构化数据生成Knowledge已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network或TextCube)则是非常困难的。  在Network/TextCube到Knowledge的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构Network/Tex

6、tCube的路上他们也做出了许多尝试和成果,现在仍在不断求索中。  数据挖掘三部曲  韩家炜认为,数据挖掘的研究工作可以总结为三部曲:  (1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来  (2)将文本数据转化为有类型的Network/TextCube。将文本数据变成有结构、有类型的数据(Network/TextCube)  (3)挖掘Network/TextCube生成有用的知识。最后一步才是挖掘。  此外,在研究的推进过程中,他们也曾遇到了很多困难。  一是领域限制。用一般语料获得的实体标注在特定领域

7、、动态领域或者新兴的领域无法很好的工作。  二是名称的歧义性。多个实体可能共享同一个表面名字(SurfaceName,例如「Washington」,它可能是州、市、人名、球队名等)。  三是上下文稀疏。对同一个关系可能有许多种表示方法(想想中文有多少中表示体育比赛结果的方法)。  虽然数据挖掘已经有了成型的结构,但仍有重重困难需要克服。韩教授曾说:“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。这条路通宽了,将来我们就可以从大量的无结构的文本,变成大量的有用的知识。” 

8、 在即将到来的盛夏,韩家炜教授作为中国人工智能大会的特邀嘉宾,将会介绍他最近的研究:如何借助大规模文本数据自身的力量去做大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。