欢迎来到天天文库
浏览记录
ID:28811880
大小:5.92 MB
页数:58页
时间:2018-12-14
《基于rdf三元组的微博数据格式化存储方法设计(1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机科学与技术学院毕业设计(论文)论文题目基于RDF三元组的微博数据格式化存储方法指导教师职称博士讲师学生姓名学号专业网络工程班级系主任院长起止时间目录摘要iAbstractii引言1第一章微博数据获取21.1新浪微博开放平台21.1.1简介21.2微博数据获取21.2.1微博数据获取流程图21.2.2应用的创建31.2.3下载软件开发包(SDK)41.2.4获取微博数据51.3本章小结9第二章微博数据转换102.1微博数据分析102.2微博数据转换112.2.1RDF简介112.2.2微博数据转换的实
2、现122.3本章小结20第三章微博RDF数据的存储及查询213.1OpenlinkVirtuoso数据库213.1.1Virtuoso数据库简介213.1.2Virtuoso数据库的安装及使用213.2微博RDF数据的存储223.3微博RDF数据的查询233.3.1SPARQL查询语言简介233.3.2微博数据查询233.4本章小结29第四章总结与展望304.1总结304.2展望30参考文献31谢辞33附录34基于RDF三元组的微博数据格式化存储方法摘要:语义网为Web上日益增长的大数据提供了有效的智能化
3、处理手段,它使用资源描述框架(ResourceDescriptionFramework,RDF)来描述网络数据。本文通过对新浪微博上较为杂乱的微博数据进行分析,根据RDF三元组规则,为其中所需有用信息数据添加语义,并以XML为语法,编写算法将其转换为RDF文件;此外,研究了RDF数据库Virtuoso的使用方法,并将微博的RDF数据导入Virtuoso,使用SPARQL语言对其进行快速查询和验证。总之,本文为微博数据的语义转换提供了借鉴,对于提高网络资源的检索效率具有重要意义。关键词:数据;RDF;三元组
4、;存储iRDF-FormattedDataStorageMethodforWeiboAbstract:SemanticWebprovidesaneffectivemeasureofintelligentprocessingforthegrowingbigdataontheWeb,whichusestheResourceDescriptionFramework(RDF)todescriptionthenetworkdata.Thisarticlethroughtomakeananalysisofthemes
5、syWeibo’sdata,andtoaddsemanticsfortheneededandusefuldatabytherulesofRDFtriples,then,writealgorithmstoconvertittoRDFfilebythegrammaroftheXML,inaddition,studiedtheuseofRDFdatabaseVirtuosoandimporttheRDFfileofWeibo’sdataintoVirtuoso,usingSPARQLlanguageforits
6、fastqueryandvalidated.Allinall,thisarticleprovidesreferencefortheWeibodatasemanticconversion,andhasgreatsignificanceforimprovigtheretrievalefficiencyofthenetworkresources.Keywords:data,RDF,triples,storageii南华大学计算机科学与技术学院毕业设计(论文)引言如今,随着社交网络化时代的逐步到来,各种社交软件和
7、社交平台接踵出现,而微博,这种基于用户关系进行信息分享、传播的平台开始被越来越更多的人喜爱和使用。因此,随着微博用户的增多以及时间的推移,微博上的信息数据量也开始越来越庞大而复杂,所以,要想从这些信息数据中获取某相关数据或分析某相关数据不是一件容易的事情。虽然现在有各种搜索引擎的帮助,但是仅凭靠利用关键字的搜索技术,往往难达到理想的效果。例如:如果你通过关键字“苹果”进行搜索,搜索引擎很难判断出你是想搜索苹果这种水果,还是想搜索苹果这种品牌手机,或是苹果公司的其他相关信息。因此,这里就会牵扯到语义搜索这一
8、问题,即让计算机能够理解Web上的资源,以便实现人和计算机,计算机与计算机之间无偏差的信息传递。这种语义Web就需要RDF(ResourceDescriptionFramework)来对数据结构进行语义描述。RDF定义了一种通用的资源描述框架,即用资源、属性、属性值的三元组,并以XML为语法来灵活地描述Web上的资源。此三元组结构类似于一个句子的主语、谓语、宾语的关系,而这三个组成元素主要是用URI(UniformResour
此文档下载收益归作者所有