机器学习在网络空间信息检索中的应用_王雷.pdf

机器学习在网络空间信息检索中的应用_王雷.pdf

ID:57023173

大小:91.18 KB

页数:2页

时间:2020-07-31

机器学习在网络空间信息检索中的应用_王雷.pdf_第1页
机器学习在网络空间信息检索中的应用_王雷.pdf_第2页
资源描述:

《机器学习在网络空间信息检索中的应用_王雷.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、福建电脑FUJIANCOMPUTERDOI:10.16707/j.cnki.fjpc.2016.07.025机器学习在网络空间信息检索中的应用122王雷,鲍蓉,陈磊(1徐州市公安局科技处江苏徐州221000;2徐州工程学院信电工程学院江苏徐州221108)【摘要】网络空间的和谐和安全是互联网络时代的一个重要课题。而信息检索技术支撑的情报搜集、舆情分析等技术则是构造和谐网络空间的重要工具。本文主要分析了机器学习技术在信息检索中的工作原理,为这些技术的实际应用提供指导。【关键字】信息检索;机器学习;网络空间安全引言到另一个网页。并不断把采集到的网页传回到搜索引擎

2、的网页信息检索科学起源于20世纪中期。在此以前,信息存储和数据库中。它们遍历网络的规则是,每遇到一个新网页就提取传播主要以纸质介质为载体,信息检索研究关注的是如何检索网页的全部链接,再利用这些链接访问其它网页。索引器为“机文献中记载的信息。20世纪50年代,随着通信技术与计算机技器人”采集的信息建立索引,并存放在数据库中。互联网上的数术的快速发展,信息载体类型的多样化及传播手段得到改进。据是不断更新的,所以索引器要定时命令“机器人”重新搜索互尤其是计算机应用的普及促使社会各领域信息飞速膨胀,信息联网,保证数据库中的信息不致过时。网页检索器负责接收用检索越来越

3、被人们所重视。户的查询条件,并在搜索完成后把搜索结果返回给用户。在检到21世纪,随着互联网的进一步发展,信息量的增大,人索过程中网页检索器要计算数据库中的网页同用户查询之间们获得所需的信息更加困难。随着在信息检索领域的大量研究的相关度,然后按相关度对网页排序,并从高到低返回给用户。的进行,各种搜索引擎被开发出来,一些商业搜索引擎取得了考虑到上述网络空间信息结构的特点,上述搜索技术主要巨大成功。各类建立在信息检索技术上的情报搜集、舆情分析面对三类信息进行针对性挖掘:内容挖掘、结构挖掘和使用挖等技术得到了高度重视。这些技术对构建安全和谐的网络空间掘。内容数据指网

4、页中包含的、网页编辑者试图传达给用户的起到重要支撑作用。而深入理解这些技术的内部机理是正确运数据对象。其中可以包括文本、图像、视频及后台数据中提取出用这些技术的基础。的结构化信息等。目前,WEB的内容挖掘主要是文本挖掘,它一、信息检索工具的发展的挖掘方法主要是对纯文本进行分类、聚类的方法。不过由于各类通用和专用搜索引擎无疑是网络空间信息检索中最网络页面还包括其它重要信息,所以内容挖掘不应单独进行,为重要的工具,也是研究热点。它的发展经历了不同的发展时必须和结构挖掘、使用挖掘相结合[3-4]。结构数据是用来描述网期,形成了不同的种类,已经有成熟的框架结构。常见

5、商用搜索络空间信息如何组织的数据,其中包括网页内部结构信息和网引擎最常见的是[1]:全文搜索、目录索引和元搜索三类。目录索页外部结构信息。网页内部结构信息指HTML等文件格式的标引的功能,就是按目录分类的网站链接列表。用户完全可以不记信息;网页外部结构信息指网页间的超链接结构。其中网页用进行关键词查询,仅靠分类目录即可找到需要的信息。目录内部结构信息又分为:格式信息和语义信息。使用数据主要指索引中最具代表性的是雅虎。其他著名的还有LookSmart、About网络资源被如何使用的数据,包括用户访问网页的时间、IP地等。国内的搜狐和新浪也是人们熟悉的目录索引。

6、全文搜索引址、访问WEB站点的路径信息以及搜索引擎的点击日志数据擎中具代表性的有Google、AltaVista、Inktomi、Teoma等,国内最等,使用数据是网络用户和网络资源之间交互作用的结果。著名的有百度,有的目录索引,如:搜狐、新浪等也都推出了自二、机器学习的发展和分类己的全文搜索引擎。它们都是通过从互联网上提取各个网站的按照人工智能大师西蒙的观点,机器学习就是系统在不断信息来建立数据库,进而检索与用户查询条件匹配的相关记重复的工作中对本身能力的增强或者改进,使得系统在下一次录,然后按一定的排列顺序将结果返回给用户。元搜索引擎在执行同样的任务或类

7、似任务时,比现在做得更好或者效率更高接受用户查询请求时,同时在其他多个引擎上进行搜索,并将[5]。从简单利用神经元模型的自适应特Rosenblatt感知器,到基结果返回给用户。InfoSpace、ogpile、Vivisimo等都是著名的元搜于领域知识的知识工程快速发展,再到统计学习理论的形成。索引擎。它们在搜索结果排列方面,有的直接按来源引擎排列机器学习大致经过了三个发展阶段。尤其是随着统计学习理论搜索结果,有的则按自定的规则将结果重新排列组合。的数学基础逐渐加深,机器学习的使用范围快速推广。常见的这些常见搜索引擎的结构虽然各有差异,但大体架构相学习方法也

8、演化为[6-7]:机械式学习、指导式学习、归纳学习、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。