欢迎来到天天文库
浏览记录
ID:44193271
大小:637.50 KB
页数:25页
时间:2019-10-19
《blog搜索.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、博客专用搜索引擎路志学:10548302陈友祥:10548168程彦涛:10548169贺珊:10548289李预清:10548329项目汇报2005-12-27项目背景(1)博客(blog),一种在线网络出版形式,版面通常由单栏文本贴子按倒时间顺序不断更新排列构成,并能提供一些个人化的链接。1997年,blog这个术语被首次应用。1999年,第一个免费博客软件(pitas)发布。“911”之后,博客得到快速发展。2002年,博客概念进入中国。2005年2月24日,博客联结分析公司Technorati动态监测,博客网站约为710万个。项目背景(2)博客的优
2、势民主化的社会沟通。为主流媒体提供新闻和公众观点来源。为教育和商业创造知识共享的环境。为个人提供一个自我表达和自我价值实现的平台。简单且成本低。市场分析(1)博客的用户有较高的忠诚度。有较高的知识水平和创造能力。通常具有类似心理、社会情况、审美标的、生活方式的群体,有知识、有理想、有思想和明确的行动目标。2004年11月,美国博客创建者占网络总用户比例的11%,超过800万名,博客访问用户占27%,达3200万名。近两年国内博客市场发展迅速市场分析(2)竞争对手传统搜索引擎,先入为主。现有的博客搜索引擎,跟传统的普通搜索引擎并无区别,针对查找时候的关键词,
3、搜索出来的结果是包含该关键词的blog中的文章,而并未对该blog进行分析和归类。博客网站,大型博客网站会提供分类等服务。我们的目标提供Blog主题类别搜索。即:根据用户输入的关键词,返回与该词所属类别相关blog链接。同义词(或属于同一个类别的词)扩展功能。其它延伸功能。项目开发示意图CrawlingKnn分类结果提取高频词数据库用户界面Knn分类模块项目开发主要模块一个准确高效的Crawler。抓取互联网上的博客网页,blog以用户为单元,属于同一个用户所发表的文章集合成一个文档。准确的分类器。将上面生成的文档准确归类,用户输入某个关键词,可以准确返回
4、所有该类下的文档(URL)。词频统计。我们认为同一个文档的高频词之间存在某种相似性。所以统计出文档的词频,截取前n个并返回,可以向用户提供类似于同义词扩展的提示。友好的查询界面。Web爬取以及html内容过滤在第一次WBIA的爬虫作业的基础上,根据我们这个项目的需要,我们选定了一个开源的spider程序作为我们的爬取工具,这个程序可以获取单个url的内容和获取该页面内的url信息,当然,这还并不能很好的符合我们的需要,所以,我们需要在它的基础上做进一步的完善:1将获取的web过滤掉html的符号之后的内容存为文本2在获取的web中提取出链向本blog外部的
5、url,并利用blog作为关键词判断该url是否链向一个blog3对新获取的url继续进行爬取的功能4多线程获取的能力一、网页抓取程序截图如下爬取过程截图(过滤html前)爬取的文本(过滤掉html之后)提取的链向该网页外部的urls:一、网页抓取存在的问题同一个用户的多篇文章归档问题:如何识别这几篇文档属于同一个用户(博客)、如何保证该博客的所有文章都已获取。必须针对某个网站单独优化实现。重复URL的消除。消除重复URL、同根(同路径)URL。不同网站的汉字编码不同。二、文档分类利用中科院做的分类器。该分类器提供SVM、KNN两分类法。SVM只能把一个文
6、档归到某一个类下。考虑到本系统返回结果要支持优先排序。采用KNN分类法。二、文档分类存在的问题训练集问题。该分类器只给出了包括体育、教育、军事等在内的十个大类。每类下数十篇文档。如果本系统的文档需要准确归类,我们必须利用一个大而全的分类体系,人工获取一大批相关文档,构造训练集。因时间关系并未构造。系统目前仍仅有十类,这直接影响了系统的检索效果!三、提取关键词每篇文档的关键词一定程度上代表了该文档的主题。而我们的目标是返回给用户具有相应主题的blog。由于分类体系的不完善,我们退而求其次:提取每篇文章的关键词。用户查询时利用关键词匹配返回结果条目。关键词的别
7、一个用途是,可以作为同义词相关搜索返回给用户。三、提取关键词算法:统计词频法。对每篇文档中的词出现频率进行统计。去除其中的停用词,选择n出频率最高的词。三、提取关键词存在的问题目前的停用词表不够大。获取的关键词往往会包含一些无实际查询意义的词。读取不同汉字编码的文档会出现乱码。解决办法是处理前进行编码转换。四、查询界面分类检索根据用户选择的类别,列出属于该类的所有Blog地址。关键字检索根据用户输入的关键字,返回与之匹配的Blog地址。四、查询界面:分类检索首页提供了五个类别的检索,如计算机、军事、医药等。若想检索其他类别,可以点击“更多”。每个类别下都列
8、出了与之相关的Blog地址,由上至下属于该类别的程度依次降低。四、
此文档下载收益归作者所有