基于强化学习的Deep Web数据提取方法-论文.pdf

基于强化学习的Deep Web数据提取方法-论文.pdf

ID:57924476

大小:311.96 KB

页数:4页

时间:2020-04-14

基于强化学习的Deep Web数据提取方法-论文.pdf_第1页
基于强化学习的Deep Web数据提取方法-论文.pdf_第2页
基于强化学习的Deep Web数据提取方法-论文.pdf_第3页
基于强化学习的Deep Web数据提取方法-论文.pdf_第4页
资源描述:

《基于强化学习的Deep Web数据提取方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、总第304期计算机与数字工程Vo1.43No.22015年第2期Computer&DigitalEngineering299基于强化学习的DeepWeb数据提取方法林治王睿(扬州职业大学信息工程学院扬州225009)摘要随着Web的飞速发展,Deepweb中蕴藏着海量高质量数据,如何高效地提取这些数据极具挑战。由于DeepWeb的动态性,其数据经常处于频繁更新的状态,而用户总是希望获得最新鲜的内容。为此,论文在分析DeepWeb数据变化特性的基础上,建立一个DeepWeb数据生成模型,然后,提出一种强化学习的DeepWeb数据提取方法。实验表明,

2、该方法具有较好的数据提取效率,可有效提高DeepWeb数据集成服务质量。关键词DeepWeb;强化学习;数据提取;更新频率中图分类号TP311DOI:10.3969/j.issnl672—9722.2015.02.034RetrievingDeepWebDataBasedonReinforcementLearningLINZhiⅥ,ANGRui(InformationEngineeringCollege,YangzhouPolytechnicCollege,Yangzhou225009)AbstractWiththerapiddevelopmen

3、toftheWeb,therearemassivehigh-qualitydatainDeepWeb.HowtOefficientlyretrievethesedataischallenging.BecauseDeepWebisdynamic,thedataarealwaysinfrequentlyupdatestatus.andusersalwayswanttoobtainthefreshestcontent.Inthispaper,throughanalyzingthevarietycharactersofDeepWeb,aDeepWebda

4、tagenerationmodelisestablished,andthenaDeepWebdataretrievalmethodbasedonreinforcementlearningisproposed.ExperimentalresultsshowthatthismethodhasbetterdataretrievaIefficiency。whichcaneffectivelyimprovetheservicequalityofDeepWebdataintegration.KeyWordsDeepWeb,reinforcementlearn

5、ing,dataretrieval,updatefrequencyClassNumberTP311响应时间由远程数据源的服务质量决定。另一种1引言方案就是将DeepWeb中爬取出来的内容存储在随着Web的飞速发展,DeepWeb中蕴藏着海本地动态网页拷贝库中,并通过建立索引来缩短用量高质量数据。使用传统搜索引擎在Internet表户查询的响应时间r2]。该方案的关键问题是如何面检索到的信息只是其中的一小部,在Internet深让本地数据与远程数据同步。本文在相同更新资处还存在海量信息无法被搜索到,这些信息被称为源条件下,使本地和远程数据保持最大化

6、同步。DeepWebc¨。DeepWeb数据量是非常巨大的,大由于DeepWeb数据的动态性,其数据往往处约是可索引的web信息的500倍。目前Deep于频繁更新的状态,但用户总是希望得到最新的内Web数据集成主要有两种实现方式:一种是基于容[3]。由于不同的DeepWeb数据源中数据记录元搜索的方法,提供一个统一的查询接口,将用户的变化频率是不一样的,根据统一的频率更新所有查询通过语义映射转发到相应的DeepWeb数据的本地数据非常耗费资源。由于DeepWeb数据源,返回的结果通过提取,语义标注,去重合并后呈处于快速动态的更新状态,本文提出的方

7、法可以有现给用户。该方法不需要维护本地数据库,但查询效地提高DeepWeb数据集成服务质量,实现Deep收稿日期:2014年8月11日,修回日期:2014年9月27日作者简介:林治,女,硕士,副教授,研究方向:数据挖掘、云计算。王睿,男,硕士,副教授,研究方向:软件工程、数据挖掘、云计算。300林治等:基于强化学习的DeepWeb数据提取方法第43卷Web数据的自动增量更新,从而使DeepWeb数据件在不相交时间区间是重复独立发生,而且在充分可以更好地为科研、生产和决策服务。小的区间上最多只发生一次,它们的累计次数就是一个泊松过程。在很多应用场合

8、都可以近似地归2相关工作结为泊松过程。文中采用泊松过程来描述对象信自DeepWeb概念提出以来,国内外学者对如何息的变化情况,使得本地数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。