随机过程在web搜索上的一些应用

随机过程在web搜索上的一些应用

ID:33072866

大小:78.41 KB

页数:7页

时间:2019-02-19

随机过程在web搜索上的一些应用_第1页
随机过程在web搜索上的一些应用_第2页
随机过程在web搜索上的一些应用_第3页
随机过程在web搜索上的一些应用_第4页
随机过程在web搜索上的一些应用_第5页
资源描述:

《随机过程在web搜索上的一些应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、随机过程在web搜索上的一些应用R前我们实验室主要致力于web搜索,模式识别以及网络管理等方面的研究。其中web搜索包括文本检索、图像检索、咅频检索、信息过滤等方面的内容。Web搜索最大的特点是将web上的信息检索、过滤和推荐等技术定义为web搜索,使其具有比较宽泛的内涵,将web检索、过滤和推荐统一在一个体系中,既符合这三项技术发展的现状和趋势,又便丁•人们进行系统的学习和研究。关键词马尔科夫聚类最大似然概率模型、搜索引擎体系提到web搜索,我们第一个想到的就是搜索引擎的研究和探索。搜索引擎是指根据

2、一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理之后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。每个独立的搜索引擎都有自己的网页抓取程序。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。Web是互联网上面最重要的应用,网页与网页之间,站点与站点之间的纷繁复杂的联系,呈现一定的马尔科夫性。很典型的行为,用户访问某一个页面,然后点击这个页面上面的某

3、一个连接,到下一个页面,这个时候你如何到达下一页面,仅与你当前所处的页面有关,如果考虑用户行为的倾向性,那么相当于在当前页面上的每一个到下一个页面的链接被点击的概率呈一定的分布,这个分布就是对我们研究至关重要的用户行为特征。搜索引擎在用户提交一个查询词之后,将迅速的从海量的网页中匹配出成千上万的含有这个词的网页,那么对这些网页进行排序,将最可能符合用户要求的网页放在最前面就是一个高命中率的搜索引擎所要做的工作。排序就涉及一个网页权重和见过相似度的问题,结果相似度问题,可以认为是一种模式匹配,具有一定马

4、尔科夫性,尤其是在多个关键词检索的吋候,使用向量机的模型来处理状态转换过程,和语音识别的办法接近。同时相应于web技术,相应而生的还有中文技术,比如网页的自动分类,尤其是中文网页的分类技术。我们实验室一直有人在做这方而的工作,从最初的中文字间的相关信息、词频以及WWW页面标记等信息,提取网页特征,到基于支持向量机的序列最小最优算法,以及后面的关于网页中文技术方面的工作,无不体现了随即过程在搜索引擎方面的应用。在自动分类上面,涉及到训练的问题,最初是采用最大后验概率的办法解决的,后来开始了SVM方面的应

5、用研究。支持向量机作为一种可训练的机器学习方法,依靠小样本学习后的模型参数进行导航星提取,可以得到分布均匀且恒星数量大为减少的导航型表。SVM的思想主要概括为两点,首先它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样木转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。另外,它基于结构风险最小化理论Z上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并U在整个样木空间的期望风险以某个概率

6、满足一定上界。SVM中有一个我们非常关心的问题,多大的样本数量可以获得合适的结果。我们做训练的时候,所使用的训练样本树趋于无穷的时候,所谓经验风险是否的确区域实际风险,另外,当样本数有限的时候,经验风险和实际风险的关系如何。在做这样的研究的时候,随机过程的方法和手段是很重要的,虽然看上去这更接近一个最优化的问题。另外,说到这里,我需要提一下网页爬虫的问题,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的U

7、RL,在抓取网页的过程屮,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

8、抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。其基木思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。