资源描述:
《Design and Implement a Web News Retrieval System (中文翻译版)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、设计和实现一个网络新闻检索系统JamesN.K.Liu,WeidongLuo,andEdmondM.C.Chan香港理工大学,计算机系{csnkliu,cswdluo}@comp.polyu.edu.hk,spmcchan@inet.polyu.edu.hk摘要:我们展示了“Ai-Times”系统的设计和实现,这是一个基于网络的新闻检索系同时,我们也详细地描述了爬虫模型,新闻提取模型和自动摘要模型。1简介通过因特网能够轻松获取到的在线信息量正在呈现爆炸式的发展,这是一个不争的事实。当可用信息增加的时候,处理、分
2、析和使用如此大量信息的能力不足也变得越来越明显。在线的新闻信息也存在着这样的问题。而且,目前可用的搜索引擎也效率低下。例如,不能满足用户根据他们指定的目录和时间片获取信息的功能,也不能根据需求的频率来提供在线的新闻信息。我们描述的“Ai-Times”系统(包括设计和实现),是一个基于网络的新闻检索系统,而它的目标就是精确地获取和组织网络上的新闻信息。同样,我们也详细地描述了爬虫模型,新闻提取模型和自动摘要模型。我们相信许多现有的新闻检索系统已经用到了这些技术中的一部分,但是却很少有关于关于这些技术的科学性研究。
3、这篇论文的剩余部分是这样组织的:在第二部分,我们回顾了在新闻检索系统方面的相关工作;在第三部分,我们定义了关键的部分,并且描述了“Ai-Times”系统的运作,包括优化的网络爬虫算法,新闻内容提取模型和自动摘要模型;在第四部分,我们给出了实验结果;最后一个部分是我们的结论。2相关工作新闻信息检索已经被大量的研究过了[1,2,3,4,5]。很多研究是在新闻信息检索的一般结构上完成的。例如,引用YasuoAriki,YoshiakiSugiyama.ATVNewsRetrievalSystemwithInterac
4、tiveQueryFunction.ProceedingsoftheSecondIFCISInternationalConferenceonCooperativeInformationSystems(1997)184-192.展现了一个利用关键字自动分类电视新闻文章的系统;引用SteveRenals,DaveAbberley,DavidKirbyandTonyRobinson.TheTHISLsystemforindexingandretrievalofbroadcastnews.IEEESignalProce
5、ssingSociety1999WorkshoponMultimediaSignalProcessingSeptember13-15,1999,Copenhagen,Denmark(1999)77-82.描述了“THISL”,一个维护BBC广播和电视新闻记录文档的新闻信息检索系统;引用SudhirAggarwal,FuyungHung.WIRE-AWWW-basedInformationRetrievalandExtractionSystem.Proc.ofthe9thInternationalWorkshop
6、onDatabaseandExpertSystemsApplications(DEXA’98),Vienna,Austria.(1998)887-892.介绍了基于万维网信息检索和提取系统;引用M.Sanderson&C.J.vanRijsbergen.NRT-NewsRetrievalTool.ElectronicPublishing,EP-odd,Vol.4,Num.4(1991)205-217展示了一个基于一些报纸(例如:Times)的现有数据库的新闻检索工具的设计。上述的论文对新闻信息检索的总体结构有很
7、大的贡献。然而,他们中没有一个详细地描述了核心模块,例如爬虫模块,新闻提取模块和自动摘要模块。也存在着一些研究长串提取算法和网络爬虫算法的文章。例如,引用SaikatMukherjee,GuizhenYang,WenfangTan,I.V.Ramakrishnan.AutomaticDiscoveryofSemanticStructuresinHTMLDocuments.ICDAR(2003)245-249.描述了一个将HTML文档自动转化成树形语义结构的算法,同时也展示了其隐含的意义。然而,当被用于新闻提取的
8、时候,它并不能对所有种类的HTML页面进行合理的分析。引用Li,J.J..ResearchandImplementationofADomain-UnconstrainedChineseAutomaticAbstractingSystem.Phddissertation,Dept.ofComputerScience,HarbinInstituteofTechnology.1996.介绍了