基于模拟退火的在线Web文档内容数据质量评估-论文.pdf

基于模拟退火的在线Web文档内容数据质量评估-论文.pdf

ID:58139587

大小:561.31 KB

页数:7页

时间:2020-04-24

基于模拟退火的在线Web文档内容数据质量评估-论文.pdf_第1页
基于模拟退火的在线Web文档内容数据质量评估-论文.pdf_第2页
基于模拟退火的在线Web文档内容数据质量评估-论文.pdf_第3页
基于模拟退火的在线Web文档内容数据质量评估-论文.pdf_第4页
基于模拟退火的在线Web文档内容数据质量评估-论文.pdf_第5页
资源描述:

《基于模拟退火的在线Web文档内容数据质量评估-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、JournalofComputerApplicationsISSN1001—90812014—08—10计算机应用,2014,34(8):231l一2316,2331C0DENJYIIDUhttp:,.oca.cn文章编号:1001—9081(2014)08—2311—06doi:10.11772/j.issn.1001—9081.2014.08.2311基于模拟退火的在线Web文档内容数据质量评估韩京宇,陈可佳(南京邮电大学计算机学院,南京210003)(通信作者电子邮箱jyhan@njupt.

2、edu.cn)摘要:针对基于训练模型或用户交互的web数据质量评估方法不能在线响应,也不能获取内容事实内涵的问题,提出一种基于模拟退火(sA)的在线Web文档内容数据质量评估(QASA)方法。首先,通过在Web上搜集主题相关文档,构建目标文档的相关空间,进一步采用开放式信息抽取技术抽取文档内容的事实;然后,采用sA技术在线构建两个最重要的数据质量维度即准确性和完整性的参照;最后,通过比对目标文档和维度参照的事实来量化数据质量雏度。实验结果表明,QASA方法可以及时返回近似最优解,并保持与离线算法等

3、同或高于10%的精度。该方法不仅能满足实时响应的要求,而且具有高的评估精度,可应用于在线识别高质量的Web文档。关键词:数据质量;web文档;模拟退火;维度;事实中图分类号:TP311.13;TP18文献标志码:ADahaqualityassessment0fWebarticlecontentbasedonsimulatedannealingHANJingyu。.CHENKejia(CollegeofComputerSconceandTechnology,NanjingUniversityofPo

4、stsandTelecommunications,NanjingJiangsu210003,China)Abstract:BecausetheexistingWebqualityassessmentapproachesrelyontrainedmodels,andusers’interactionsnotonlycannotmeettherequirementsofonlineresponse,butalsocannotcapturethesemanticsofWebeontent,adataQu

5、alityAssessmentbasedonSimulatedAnnealing(QASA)methodwasproposed.Firstly,therelevantspaceofthetargetarticlewasconstructedbycollectingtopic—relevantarticlesontheWeb.Then,theschemeofopeninformationextractionwasemployedtoextractWebarticles’facts.Secondly,

6、SimulatedAnnealing(SA)wasemployedtoconstructthedimensionbaselinesoftwomostimportantqualitydimensions,namelyaccuracyandcompleteness.Finally,thedataqualitydimensionswerequantifiedbycomparingthefactsoftargetarticlewiththoseofthedimensionbaselines.Theexpe

7、rimentalresuhsshowthatQASAcanfindthenear—optimalsolutionswithinthetimewindowwhileachievingcomparableoreven10percenthigheraccuracywithregardtotherelatedworks.TheQASAmethodcanpreciselygraspdataqualityinreal—time,whichcatersfortheonlineidentificationofhi

8、gh—qualityWebarticles.Keywords:dataquality;Webarticle;SimulatedAnnealing(SA);dimension;fact以下两个连续步骤构成:1)相关文档识别和事实提取。根据0引言目标文档内容,在Web上搜集主题相关文档,并抽取其中的人们经常在线获取Web文档,其数据质量直接影响获取事实,从而构建目标文档的主题相关空间。2)在线维度参照的数据的价值。数据质量公认为分解成若干数据质量维度来构建和维度量化。在相关空间中,采用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。