面向海量邮件的检索系统研究与实现

面向海量邮件的检索系统研究与实现

ID:25625411

大小:1.52 MB

页数:68页

时间:2018-11-21

面向海量邮件的检索系统研究与实现_第1页
面向海量邮件的检索系统研究与实现_第2页
面向海量邮件的检索系统研究与实现_第3页
面向海量邮件的检索系统研究与实现_第4页
面向海量邮件的检索系统研究与实现_第5页
资源描述:

《面向海量邮件的检索系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨工业大学工学硕士学位论文第1章绪论1.1选题背景和研究意义Internet的问世带来了电子邮件业务的出现,网络技术的飞速发展促进了邮件服务的广泛普及和繁荣,电子邮件已经成为生活在信息时代的是人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径之一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件来进行处理,而且越来越多的正式和重要的信息也通过电子邮件来进行传达和交流。电子邮件的使用者数量呈几何级数增长。据统计一个普通的用户大概每天会收到10封到电子邮件,如果他订阅了邮件讨论组,那么这个数目会更大。电子

2、邮件系统以其方便、快捷的特点已经基本取代了传统的邮局通信方式。然而随着个人邮箱,尤其是大规模企业邮箱长时间的积累,形成邮箱内的数据急剧增长,这种现象被称为信息过载。研究显示:不同的用户对这一问题有不同的解决策略,主要的策略主要有两种,其一是效率型,这一类型的用户使用电子邮件是为了提高工作效率、节省时间,他们通过减小邮箱容量和订阅的讨论组的数目以及通过邮件过滤和邮件自动处理机制来处理信息过载。其二是搜集型,这种类型的用户把电子邮件作为一种信息来源使用,他们较少使用邮件过滤,并尽可能地保存所有的邮件以备将来使用。无论以何种策略来解决信息过载,在一定程度都很

3、难使用户快速有效地找到所需的信息。另一方面,随着电子邮件通讯量的不断增长,某些不法分子利用邮件传送广告、病毒、不健康图文以及破坏祖国安定团结的非法信息,泄漏国家和企业的机密,迫切需要对邮件的可疑信息、可疑用户进行有效的信息监控。邮件内容安全技术直接关系到国家的政治稳定、企业的数据安全和个人的切身利益。邮件内容安全方面的研究正在成为急需解决的国家信息安全课题,与其密切相 关的邮件的检索与挖掘也成为迫切需要研究的课题。邮件的多元化、复杂化,为信息检索[1]和相关技术领域的研究和发展提出 了新的挑战。面对如此浩瀚纷繁的信息海洋,人们迫切要求能够快速高效地获

4、得所需要的信息,有力的信息检索工具的支持将是必不可少的[2]。围绕信息这 一资源开展的计算机技术各个领域学术研究和业界应用非常活跃,如近些年出-1-哈尔滨工业大学工学硕士学位论文现的各种Internet搜索引擎、数字图书馆、电子商务等,这些领域的研究者在进行信息检索的研究时主要集中在开发用户兴趣,提高检索效率方面的研究[3~4]。虽然这些领域的研究和开发时间并不太长,仍然存在着许多有待解决的问题,但同时也取得了令人可喜的进展。作为信息资源的一个重要形式,邮件将是本文研究的对象。我们认为,在邮件检索系统中,邮件这一媒体对象所面临的存储、管理、解析、索引、

5、检索等问题不仅具有特殊性,而且具有普遍性,解决好邮件检索的相关问题也将是解决邮件检索系统问题的契机。海量邮件信息检索系统的研究,是邮件内容挖掘研究的基础,是邮件内容管理的关键性支撑技术,海量邮件信息检索对邮件内容安全具有十分必要的作用,如何更好地解决电子邮件的信息监控问题越来越多地得到了研究人员和开发人员的重视。1.1海量邮件检索研究现状1.2.1信息检索概述信息检索是对无结构自然语言文本数据库的检索。当用户有了信息需求,他可以通过信息检索系统查找、浏览文档数据库,找到符合他需要的信息。信息检索系统向用户提供的查找方式通常是基于关键字的形式,用户需要把

6、他的无形的信息需求用有形的关键字表达出来,提交给检索系统。信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机器学习等[5]众多知识和学科领域。信息检索的主要目的是对信息表示、存储与组织,使用户更容易得到所需要或者感兴趣的信息。信息检索的过程可以简单地描述为:用户提交查询条件,信息检索系统根据该查询条件在文档集中检索出与其相关的文档子集,对这些相关文档子集中的文档按照与查询条件的相关性的值进行排序,最后返回给用户有序的文档子集。信息检索研究对象为无结构的文本。这一点与基于数据库的数据检索不同。在数据库领域,数据之间有特定的关系,并按照这种

7、逻辑关系进行结构化的存储。进行检索时,可以按照这种逻辑关系直接找到需要的信息。数据库中的信息通常粒度较小,包含的信息量少,不能表示比较大的主题。XML文档是有结构的,因为它们是高度结构化的,而且结构是语义的直接体现。它们可以看成一种半结构化的数据库。给定一个用户查询条件,对与其相关文档判定方法的不同产生了不同的信-2-哈尔滨工业大学工学硕士学位论文息检索模型,而不同的信息检索模型所采取的评分函数的设计,以及检索词索引库的建设也相应有所不同,所以有必要对现有的信息检索模型进行归纳和总结。对于信息检索而言,一个中心问题是如何判断一篇文档是否与用户的查询条件

8、相关[6]。对相关性进行判定的方法通常是设计一个评分函数(即相似性计算函数),对检索过的文档进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。