特种医学深网信息自动获取技术的研究

特种医学深网信息自动获取技术的研究

ID:26962144

大小:50.00 KB

页数:5页

时间:2018-11-30

特种医学深网信息自动获取技术的研究_第1页
特种医学深网信息自动获取技术的研究_第2页
特种医学深网信息自动获取技术的研究_第3页
特种医学深网信息自动获取技术的研究_第4页
特种医学深网信息自动获取技术的研究_第5页
资源描述:

《特种医学深网信息自动获取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、特种医学深网信息自动获取技术的研究一面向深网资源的信息抽取与分类技术研究笔者以实现深网信息自动化获取为研究目标,从面向深网资源的搜索提取方法、面向实体层Web的信息索引和分类技术、面向用户的信息检索平台建设3个技术层面展开研究,有计划地将大量无序的特色网络资源实现自有化并得以快捷利用。1基于半监督顺序回归模型的爬虫算法在资源搜索方面,将搜索目标设定为通常无法订购但军事特种医院特点鲜明的特色资源。通常,这些网络资源都是以深网的方式存储,并且无法直接获取。为此,笔者研究了面向深网的信息提取技术,研究并实现了一种面向军事特种医院资源的基于半监督顺序回归模型的快速爬虫算法。此算法主要包括以下3个

2、步骤:首先,根据军事特种医院网站资源的特点,利用半监督顺序回归的方法构造深网页面分类器,定义所需的主题相关的网页分为N个不同的层次。此时层次的数量级根据所给定网站资源特点设定。一般情况下,N≤4。其次,构造深网链接信息抽取器,抽取对应N层次的有效链接。在提取这些链接信息时,采用多线程的方法完成。最后,把深网页面分类器的分类作为指导,形成特征库,利用让爬虫自动提取满足要求的链接特征,快速实时地找到各层有效链接。对于爬行过程而言,笔者具体采用如下方法:在开始爬行前,把预先定义的符合特种医院资源信息的种子放入最低层的链接队列中,链接信息提取器从深网页面中抽取满足特点规则的链接信息,包括链接的、

3、页面标题,链接的锚属性等信息,并同时交付链接特征学习器。在链接特征学习器中,笔者将采用深度机器学习方法,将这些特征进行归类、分析。然后,按照上述方法,将所有N层队列中的链接进行爬行。对于同一层次的链接,根据预先定义的规则让距离网站主页近的链接先爬行。这样,既可以爬行到最佳的链接,又保证让所有的链接都被爬行到。系统运行结果表明笔者提出的爬行策略能够提取深网中有效链接的基本特征,并过滤掉无关链接,提高了爬虫的速度和准确度。2面向实体层Web的信息索引技术采用高效的爬虫技术从DeepWeb上抽取出的军事特种医院特点鲜明的特色资源之后,将其存储在本地数据库中。对于索引而言,由于军事特种医院信息的

4、特色,其索引对象可表示为Web实体(WebEntity)。Web实体通常具有各种属性,并由属性进行描述。如海军信息、潜水艇实体,具有长、宽、重量、下水深度等属性,可以将军事特种医院信息划归为多种不同实体。显然,进行实体搜索,索引的对象为实体而非页面,其索引域为实体的各个属性。用户进行检索时,搜索器根据搜索关键字来查询实体索引域,然后进行综合排序。基于此,笔者提出了一种基于迭代和组合的信息抽取方法,实现Web实体的信息抽取及其索引建立。整个基于迭代和组合的信息抽取和索引方法实现框架图。为实现此信息抽取方法,首先生成简单的页面索引。页面层的索引技术,主要采用基于关键字的倒排排序方法,然后再对

5、其按实体关键属性进行分类。其次,采用学习和深度搜索的方法抽取基本实体属性信息。在该过程,首先利用基于反馈的条件随机域模型来抽取实体的属性信息,之后通过快速排序及其深度搜索方法穷尽搜索包含某些特定实例的所有页面集。采用基于反馈的条件随机域模型的基本思想是先从已有的实体集中构造训练数据集,采用预先定义的规则对训练数据集中的页面进行有条件的标注,然后进行模型训练。在训练中,笔者采用基于反馈的方式进行,即通过已有的训练结果对训练模型进行反馈,提高训练的速度和效率,最终使得抽取精度较高。最后,在迭代抽取和组合集成过程中,采用方法的基本原理是:对所有的待抽取页面集,进行用户交互定义的页面快速分割,将

6、页面分割成多个不同的部分。然后,根据实体模型,对于还未抽取的相关实体属性,采用上述的抽取方法进行迭代抽取,并将抽取的数据结果集成在一起,最后构成一个完整可信的信息实体。3面向用户的分布式信息检索平台建设在此分布式信息检索平台建设中,根据用户的需求,采用上述相关关键技术,设计了一个面向用户的分布式信息检索平台。本平台的后端服[1][2]下一页务器采用主从分布式架构。本检索平台由3个主要部分构成,分别为:总体控制服务器、半监督顺序回归爬虫服务器和迭代与组合实体索引检索服务器。其中,总体控制服务器主要负责整个爬虫系统的整体控制管理、各个服务器之间消息的发送、传递以及任务的分配等等;半监督顺序回

7、归爬虫服务器主要负责爬行深网,下载军事特种医院信息网页,并抽取网页中包含的各种实体信息;索引检索服务器主要负责接收采集到的特种医院军事等实体信息,并以建立索引,为用户提信息搜索等服务。此外,为了保证系统运行的可靠性,总体控制服务器和迭代与组合实体索引检索服务器均采用了双机热备份的方式,以维护服务器和对应的备用服务器之间数据的同步。本系统中的控制服务器是采用按用户指定的静态任务分配模式来进行网页采集,所以控制服务器和它的备用服务器之间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。