资源描述:
《基于web的新闻采集系统说明书》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、**大学学院工学学士学位论文(设计)题目:基于Web的行业新闻采集系统学号:姓名: 院(系): 信息工程学院 专业:信息管理与系统 完成日期: 2011.12.20指导老师: **大学学院工学学士学位论文摘要摘要随着互联网的飞速发展,信息时代的到来,面对网络上泛滥的新闻信息,而采集和过滤一些有用的信息对于我们来说是十分重要的。行业新闻采集系统是将非结构化的新闻文章从多个新闻来源网页中抽取出来保存到结构化的数据库中的过程。尤其是对于大型门户网站,比如新浪,腾讯他们每天的网站信息都更新,而且范围很广,全国各地,甚至全球发生的信息都能每天看
2、到更新,而他们正是利用采集系统从各大媒体网站,外国网站采集过来的。因此,信息的采集至关重要。一般的网站新闻发布平台都是采用人工输入信息,对于中小型网站这样的工作量很算可以,但是网站大了,信息就很庞大了,像那种分类信息网,更新的工作就变得很复杂,如果有专门的类似搜索引擎能检索采集到最新的相关信息然后发布在自己的网站上,因此建立专门的行业新闻采集系统,从相关网站采集有效的新闻信息可以减少很多工作量,而且可以有效的进行修改和过滤工作。目前比较有名的采集系统有火车头,视采新闻采集器[2]、万能新闻采集器、新浪新闻采集器。关键字:信息采集;行业新闻采集;.n
3、et;SQLserverII**大学学院工学学士学位论文AbstractAbstractWiththerapiddevelopmentoftheInternet,theadventoftheinformationage,facethefloodofnewsinformationnetwork,andthecollectionandfiltersomeusefulinformationforus,itisveryimportant.Newsgatheringsystemiswillunstructurednewsarticlesfrommultipl
4、esourcesofnewspageextractedsavedtothestructuraldatabaseinprocess.Especiallyforlargewebportal,suchassina,tencenteverydaytheywebsiteinformationupdates,andtherangeisverywide,alloverthecountry,andeventheglobalhappenedtoseeupdateinformationeveryday,andtheyaretheuseofacquisitionsyst
5、emfromthemajormediawebsite,foreignwebsitecollected.Therefore,thecollectionoftheinformationisveryimportant.Thegeneralwebnewsreleaseplatformareusingartificialinputinformation,forsmallandmediumwebsitesuchworkloadiscalculatecan,butthesiteisbig,theinformationisverybig,liketheclassi
6、ficationandinformationnetwork,updatetheworkisverycomplex,ifhavespecialsimilarsearchenginecanretrievecollectiontothelatestinformationandthenreleasedonhiswebsite,thusestablishingspecialcollectionsystem,fromrelatedwebsitecollectioneffectivenewsinformationcanreducealotworkload,and
7、caneffectivelymodifiedandfilterwork.Atpresentmorefamouscollectionsystemhasalocomotive,dependingontheminingnewsterminal[2];Universalnewscollector;Sinanewscollector.Keywords:newscollection;Informationcollection;.net;SQLserverII**大学学院工学学士学位论文目录目 录摘要IAbstractII摘要IAbstractII第一章引言11
8、.1课题背景11.2开发系统的意义11.3课题名称21.4问题描述2第二章可行性研究32.1经济可行性32.2技术可行性3