欢迎来到天天文库
浏览记录
ID:38370325
大小:294.00 KB
页数:18页
时间:2019-06-11
《讲稿1-信息检索简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第一章简介人们到处在谈论信息,我们越来越多地听到信息这个词汇。我们听说:我们现在进入了一个信息化社会,我们正在迈向信息高速公路,我们将要迎接一个信息爆炸的新时代。那么什么是信息? 广义的说,信息就是消息。一切存在都有信息。对人类而言,人的五官生来就是为了感受信息的,它们是信息的接收器,它们所感受到的一切,都是信息。然而,大量的信息是我们的五官不能直接感受的,人类正通过各种手段,发明各种仪器来感知它们,发现它们。 不过,人们一般说到的信息多指信息的交流。信息本来就是可以交流的,如果不能交流,信息就没有用处了。信息还可以被储存和使用。你所读过的书,
2、你所听到的音乐,你所看到的事物,你所想到或者做过的事情,这些都是信息。一、定义信息检索是指是指将信息按一定的方式组织和存储起来,并针对用户的检索需要,从结构化或非结构化的数据中获取有用信息的过程。这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(InformationSearch)。我们可以把整个信息检索过程刻划为三个方面:信息的存储与组织,信息的检索,信息的展示。图1.1给出了信息检索三个方面衔接的原理示意图。信息存储与组织信息检索与实施信息结果展示数据库信息集合信息处理者外
3、部信息信息存储信息加工信息采集处理结果结果展示检索模式结果输出特征组配需求特征检索需求匹配算法图1.1信息检索原理示意图过去,信息检索一直被人们称为“情报检索”,这是因为情报检索这一术语产生于图书情报领域,检索的主要目的也是为了获取有价值的情报或对科学研究有帮助的资料。随着相关技术的发展,应用领域的扩大,检索内涵的丰富,“信息”这个词在使用上比“情报”更加自然和普及。因此,“信息检索”逐步流行起来,并正在取代“情报检索”。当然,我们可以将“信息检索”与“情报检索”视为同义词。计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检
4、索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。二、信息检索的发展l手工检索(早期,情报检索)20世纪中期以前,情报检索处于完全手工式阶段,所使用的检索工具主要为书本式或卡片式的索引和目录,这类工具决定了它们是先组式的,并按某一规则进
5、行排序,检索的功能和效率都受到很大限制,查找方式也完全采用人工(手翻、眼看、大脑判断)来进行的。很明显,这种方式给检索者带来沉重的负担,也很容易漏检。l穿孔卡片检索(1950s)20世纪中期,穿孔卡片方式的检索系统得到应用。这是在描述文献资料的卡片边缘,为每一个文献标识对应一个固定的孔位,如果某文献确定了它的文献标识,就将相应的孔扎为豁口。检索时,根据检索策略进行相应的穿孔操作,提起穿孔棒落下的卡片即为命中文献。这种检索系统不需要人工对文献卡片中款目进行判断,卡片也不需要进行排序,检索可以采取机械操作。以上的检索方式决定了检索途径少,检索效率低,很难适
6、应巨大规模信息库的要求。计算机的诞生,为日趋艰难的情报检索带来了光明。自从20世纪50年代计算机被用于处理和存储信息以来,计算机情报检索得到非常迅速的发展,特别是Internet的普及和发展,信息检索技术得到更加广泛的应用。l计算机检索(面向主题,1960s)据报道,最早的计算机情报检索的试验是由美国海军兵器中心于1954年完成的,它主要将文献号以及文献的索引词输入计算机,检索是采用对索引词检索获取文献号。这虽然是一个试验性的项目,但它无疑是开创了计算机情报检索的先河。到了20世纪60年代,计算机技术的发展使情报检索进入了实用化时期,主要重点放在生产机
7、读版的二次文献,发行二次文献数据库的机读磁带,如:美国化学文摘社(CAS)的《化学题录》(CT,ChemicalTitles),化学文摘(CA),美国国家医学图书馆(NLM)的《医学文献分析与检索系统》(MEDLARS)等。这时的情报检索主要采用批处理检索方式,大多使用的是顺排挡检索技术,检索数据主要为书目(二次文献,secondtimedocument;secondaryliterature;twicedocument;secondarydocument;secondliterature;)数据。一次文献(primarydocument),是指作者以
8、本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献
此文档下载收益归作者所有