欢迎来到天天文库
浏览记录
ID:33780172
大小:1.16 MB
页数:44页
时间:2019-03-01
《基于语义的数据格式转换》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、河北大学硕士学位论文基于语义的数据格式转换姓名:郝亚南申请学位级别:硕士专业:计算机应用技术指导教师:李天柱20030101摘要随着Internet的迅猛发展,各种基于Web的应用系统不断涌现,同时,对信息资源的共享与交换要求也越来越高。在现有的各种基于Web的应用系统中存在大量的,复杂的不同格式的数据。如何进行Web上各系统之间的数据交换成为一个十分重要的问题。其中的核心是Web上的各种数据格式之间的相互转换,其中‘一些转换涉及到语义的问题。但是,现有的格式转换技术一般仪能完成语法的转换,没能很好的解决语义转换的问
2、题。本文在分析现有的各种数据格式转换技术的基础上,提出了基于语义的数据格式转换方法。该方法以Word文档为例,对Word文档的转换采用基于模板和基丁学习的两种策略,自动地将Word文档转换为XML。同时,为了进行高效的查询,又将转换结果转换为关系型数据作为副本。Word文档只有编辑和显示信息,无语义信息:将之转换为XML后,生成具有语义信息的文档数据,从而完成了基于语义的数据格式转换。该方法支持所见即所得,应用环境没有特殊性,方便了用户使用。另外,该方法采用了领域知识库与文档库相结合的办法,通过图形用户接口,用户可以
3、按领域,根据自己感兴趣的信息,对文档库数据进行查询;也可以对大量Word文档进行精确的基于语义的查询和管理,大大提高工作效率。关键词格式转换:Word;XML;语义AbstractWiththerapiddevelopmentofInternet,moreandmorewebapplicationshavebeendeveloped.Atthesametime,thedemandsofinformationshareandexchangehaveincreasesharply,Amongthecurrentwebap
4、plicationstherearelotsofanddifferentformatsofcomplexdata,SOhowtoexchangedataarnongdifferentwebapplicationshasbecomeanimportantissue,thegoreofwhichisdatatransformation,andsomeofthemrelatetotheproblemofsemantics.Butthecurrenttechniquecanonlyaccomplishthetransform
5、ationbasedonsyntax,notsemantics,thustheydonotsolvetheproblemofsemantics.Afteranalyzingthecurrentdatatransformationtechnique,usinginformationextractiontechnique,ThemethodofdatatransformationbasedonsemanticsiSprovided.Takingexamplefortheworddocument,weadoptthetWO
6、strategiesoftemplateandlearningtoaccomplishtheprocessoftransformation.Theprocessedworddocm-nentsareautomaticallyconvertedintoXMLdocumentsandrelationaldataatthesametimeforthesakeofefficientquery.Worddocumenthasonlyeditanddisplayinformaion,nosemanticsinformation.
7、TheproducedXMLhasaccuratesemanticsinformation,thustransformationbasedonsemanticsisachieved.ThemethodsupportsWYSIWYG(whatyouseeiswhatyouget)andcaneasilybeusedbyusers.Furthermore,domainknowledgedatabaseanddocumentdatabaseareintroducedinoilrmethod.Throughthefriend
8、lyGUIandclassifieddomain,userscancarryoutaccuratequeriesbasedonsemanticsinthedocumentdatabase,queryandmanagelotsofdocumentssemantically,thusworkefficiencyareimprovedlargelyK
此文档下载收益归作者所有