欢迎来到天天文库
浏览记录
ID:58139587
大小:561.31 KB
页数:7页
时间:2020-04-24
《基于模拟退火的在线Web文档内容数据质量评估-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofComputerApplicationsISSN1001—90812014—08—10计算机应用,2014,34(8):231l一2316,2331C0DENJYIIDUhttp:,.oca.cn文章编号:1001—9081(2014)08—2311—06doi:10.11772/j.issn.1001—9081.2014.08.2311基于模拟退火的在线Web文档内容数据质量评估韩京宇,陈可佳(南京邮电大学计算机学院,南京210003)(通信作者电子邮箱jyhan@njupt.
2、edu.cn)摘要:针对基于训练模型或用户交互的web数据质量评估方法不能在线响应,也不能获取内容事实内涵的问题,提出一种基于模拟退火(sA)的在线Web文档内容数据质量评估(QASA)方法。首先,通过在Web上搜集主题相关文档,构建目标文档的相关空间,进一步采用开放式信息抽取技术抽取文档内容的事实;然后,采用sA技术在线构建两个最重要的数据质量维度即准确性和完整性的参照;最后,通过比对目标文档和维度参照的事实来量化数据质量雏度。实验结果表明,QASA方法可以及时返回近似最优解,并保持与离线算法等
3、同或高于10%的精度。该方法不仅能满足实时响应的要求,而且具有高的评估精度,可应用于在线识别高质量的Web文档。关键词:数据质量;web文档;模拟退火;维度;事实中图分类号:TP311.13;TP18文献标志码:ADahaqualityassessment0fWebarticlecontentbasedonsimulatedannealingHANJingyu。.CHENKejia(CollegeofComputerSconceandTechnology,NanjingUniversityofPo
4、stsandTelecommunications,NanjingJiangsu210003,China)Abstract:BecausetheexistingWebqualityassessmentapproachesrelyontrainedmodels,andusers’interactionsnotonlycannotmeettherequirementsofonlineresponse,butalsocannotcapturethesemanticsofWebeontent,adataQu
5、alityAssessmentbasedonSimulatedAnnealing(QASA)methodwasproposed.Firstly,therelevantspaceofthetargetarticlewasconstructedbycollectingtopic—relevantarticlesontheWeb.Then,theschemeofopeninformationextractionwasemployedtoextractWebarticles’facts.Secondly,
6、SimulatedAnnealing(SA)wasemployedtoconstructthedimensionbaselinesoftwomostimportantqualitydimensions,namelyaccuracyandcompleteness.Finally,thedataqualitydimensionswerequantifiedbycomparingthefactsoftargetarticlewiththoseofthedimensionbaselines.Theexpe
7、rimentalresuhsshowthatQASAcanfindthenear—optimalsolutionswithinthetimewindowwhileachievingcomparableoreven10percenthigheraccuracywithregardtotherelatedworks.TheQASAmethodcanpreciselygraspdataqualityinreal—time,whichcatersfortheonlineidentificationofhi
8、gh—qualityWebarticles.Keywords:dataquality;Webarticle;SimulatedAnnealing(SA);dimension;fact以下两个连续步骤构成:1)相关文档识别和事实提取。根据0引言目标文档内容,在Web上搜集主题相关文档,并抽取其中的人们经常在线获取Web文档,其数据质量直接影响获取事实,从而构建目标文档的主题相关空间。2)在线维度参照的数据的价值。数据质量公认为分解成若干数据质量维度来构建和维度量化。在相关空间中,采用
此文档下载收益归作者所有