信息技能- 简介
- 文献检索基本知识
- 网络信息资源检索
- 馆藏信息资源检索
本馆通过多层次、全方位的信息技能介绍,帮助读者了解和较为熟练地掌握各类光盘数据库、网络数据库的使用方法,电子期刊、图书、报纸等各类资源的检索、浏览和下载方法,充分掌握查找信息,增长新知识的技能,提高个人的信息素养(information literacy)。
“信息素养”一词,最早是1974年由当时的美国信息产业协会主席Paul Zurkowski提出的,主要包括文化素养(知识层面)、信息意识(意识层面)和信息技能(技术层面)三个方面。随着社会的不断发展和信息技术的突飞猛进,许多专家和机构都对其概念提出了新的看法。1987年,信息学专家Patrieia Breivik将信息素养概括为一种了解提供信息的系统,并能鉴别信息的价值,选择获取信息的最佳渠道,掌握获取和存储信息的基本技能。
1989年,美国图书馆协会理事会将信息素养界定为4个方面:需要信息时具有确认信息、寻找信息、评价和有效使用所需要信息的能力。
Burnhein Robert认为:要成为一个有信息素养的人,他必须能够确定何时需要信息,并具有检索、评价和有效使用所需信息的能力。目前我们通常认为,信息素养是指个体通过掌握信息知识和信息技术,在信息社会中积极获取、利用、开发信息的修养与能力,包括对信息有效地检索、评价和使用,对信息进行批判性的思考,对信息进行主动鉴别、区别对待的能力。
文献检索基本知识是关于文献资源查找理论及方法的介绍,它是读者学会从海量的文献资源中迅速查找到自己所需资源必须具备的基础知识和能力。
(一)工具书基本知识简介
文献检索即信息检索,也就是通常所说的“查资料”,是从文献信息集合中识别和获得所需信息的过程或技术。文献检索包括以文献本体为对象的文献的检索,以特定数据为对象的数据检索,以名词、术语、事件经过等特定事项为检索对象的事实检索。无论是文献、数据还是事实,它们都广泛分布于各种文献之中,如果不借助一定的工具,要获取它们无异于大海捞针。这种工具是一种特殊的文献类型工具书。汇聚、浓缩某一方面资料并按特定的方法编排起来,或提供文献线索、或解难释疑的文献称为工具书。提供文献线索的称为检索性工具书,主要为我们解决“论述某一问题的文献有哪些?”,包括书目(目录)、索引、文摘;解难释疑的工具书称为参考性工具书,主要为我们解决“这个问题是什么?”,就是提供问题的答案,包括字典、词典(辞典)、百科全书、年鉴、手册、资料汇编、类书、政书、表谱、图录等。目前的工具书多为纸张型,但随着计算机技术的发展,高信息容量的磁盘、光盘被广泛采用为文献信息载体,磁盘型、光盘型工具书开始出现,并且以检索途径多、速度快、体积小而见长。
1.检索性工具书
书目也称“目录”,是著录一批相关的文献,并按一定的次序编排而成的一种揭示与报道文献的检索工具。书目实际上是伴随着文献的丰富和人类对文献的整理而出现的,是整理文献后的“副产品”。我国书目编纂工作始于西汉刘向的《别录》,现存最早的书目是东汉时班固编纂的《汉书 . 艺文志》,清乾隆时期编纂的《四库全书总目》共收入图书 3503 种,共计 79070 卷,是收录古籍文献最多的书目。目前,影响较大的书目有《全国总书目》、《全国新书目》(期刊)、《中国国家书目》等。
书目一般以单位出版物为著录基本单位,揭示文献完整的自然出版形式,以“全” 和“实”见长,即尽可能地网罗实有的文献。书目的作用主要有三个方面:(1)帮助我们认识各学科的过去和现在,了解学科发展脉络;(2)文献资料浩如烟海,借助书目我们就可以迅速而准确地从中获取所需资料;(3)书目可以指示读书门径,指导阅读。
索引旧称“索隐”、“通检”、“备检”或“引得”(“引得”系英文“ Index” 的音译),是一种记录和指引文献事项或单元知识,并按一定系统组织起来的检索工具。
索引一般以文献内部的知识单元或单篇文献为著录基本单位,揭示单篇文献的基本特征、文献中的事物名称和重要信息,特点是“深”和“便”,即对文献内容的揭示程度较书目深,提供的检索途径多,检索快捷方便。
常见的索引有两类:一,提供单篇文献线索的篇名索引,如《全国报刊索引》、《复印报刊资料索引》、《人民日报索引》、《中国古典文学研究论文索引》等;二,提供字、词、句及其他重要信息线索的事实索引,如《十三经索引》、《全唐诗索引》、《二十四史纪传人名索引》、《二十五史人名索引》等。
文摘是以精炼的文字,将文献的主要论点、数据、结论简要的摘录出来,并按一定的方式编排而成的检索工具。文摘以“精”和“快”见长,“精”即力求以较少的文字突出文献内容的关键,摘要精炼;“快”即它多以期刊形式刊行,及时向读者传递最新信息,出版周期短,报导时差小。
就某一具体的文摘而言,由于它是全文的提炼和浓缩,信息密度大,于原文就有管窥全豹之功能,有助于我们用较少的时间获得较多的信息,节约时间和精力;就检索工具角度而言,文摘具有报导文献广泛系统,揭示文献内容专深的特点,是一种重要的检索工具。所以,文摘为读者广泛使用,是二次文献的核心。
常见的文摘,社科方面的主要有《新华文摘》、《高等学校文科学报文摘》、《中国社会科学学术论文文摘》、《中国学术期刊文摘》等;科技方面的有《中国数学文摘》、《中国物理文摘》、《中国光学与应用光学文摘》、《分析化学文摘》、《实用电子文摘》、《无线电电子学文摘》、《计算机应用文摘》等。国外著名的文摘有美国的《化学文摘》等。
2.参考性工具书
字典、词典古代统称“字书”,是汇集或汇释字、词、熟语,并按一定次序编排而成的工具书。字典一般以标示汉字形体、注出读音、解释字义为主,词典则以解说词汇的概念、意义、用法为主,这就是二者区别之所在。当然,字典也对词语进行解释,语文词典往往以解释字的形、音、义开始,故一般语文字典、词典仍有相通之处。
我国古代的字书分为三大系统,即:分类解释词语的词典,以成书于西汉的《尔雅》为代表;系统分析字形、考究文字本义的字典,以东汉许慎的《说文解字》为代表;以解释字音为主的韵书,以宋人陈彭年的《广韵》为代表。除此之外,影响较大的字书还有《康熙字典》、《中华大字典》等。
现代出版的字典、词典,比较有代表性的有《新华字典》、《现代汉语词典》、《辞源》、《辞海》、《汉语大字典》、《汉语大词典》以及台湾出版的《中文大辞典》等。
字词典按其功能一般可分为语文字词典和知识词典两大类:
| 语文字、词典 | 综合性语文字词典 专门性语文字词典 字词表 |
| 知识词典 | 百科词典 专科词典 专名词典 |
综合性语文词典对字的形、音、义和词的词义、用法全面加以解释,如《新华字典》、《现代汉语词典》;专门性语文词典只收一定范围的字词,或侧重于字词的形、音、义的某个方面,如《联绵词典》、《汉语成语词典》等;字词表则只汇集字词而不作解释,如《 3000 汉语常用字表》等。
百科词典汇集并解释各学科重要的术语、概念,提供最基本的学科知识,如《辞海》( 1989 年版)、《简明知识词典》等;专科词典汇集并解释一个学科或专名领域的术语、概念,系统反映专业知识概要,如《教育大词典》、《文学理论大词典》、《数学词典》、《体育词典》等;专名词典主要提供人名、地名等事实或资料,如《中国人名大辞典》、《世界地名录》等。
百科全书是概述一切门类知识或某一门类知识,并按字顺或分类编排的大型参考工具书。百科全书博采群书,兼收并蓄,包罗万象,人类知识无所不收,因而被誉为“没有围墙的大学”。
与其他工具书相比,百科全书具有两个方面的特点:一是形式上具有汇编性(以已有的大量资料作为基础,博采众说)、概述性(从大量文献资料中概括提炼材料)、检索性(有完善的参见系统和检索系统)、可读性(可以阅读或浏览);二是内容上注重“全”、“精”、“新”。“全”即收录的知识领域完全,信息量充足;“精”即材料准确可靠;“新”指其材料不断充实更新。世界著名的百科全书主要有《美国百科全书》、《不列颠百科全书》、《科里尔百科全书》以及我国的《中国大百科全书》等。《中国大百科全书》编撰工作始于 1980 年 12 月,总编委由 100 多位著名专家学者担任,另有 20000 多名各学科的权威人士参与编辑工作。整套书按学科门类分为 80 卷出版发行,是我国目前最大的百科全书。
科全书一般分为综合性百科全书(如上述的几部百科全书)和专业性百科全书 ( 如《艺术百科全书》),也可以按规模分为大百科全书(大于 20 卷)、小百科全书(小于 20 卷)和单卷本百科全书(即百科词典)。
年鉴是系统汇集和反映一年内重大事件、学科进展、统计资料等的工具书。年鉴的特点是:资料以年度为限,反映一年内的重要情况;逐年编辑,连续出版。年鉴的作用是:提供一年来的新情况、新知识、新成果、新文献;提供逐年可比的数据资料;提供学科的研究动态和发展趋势。所以,检索某一年度的资料利用年鉴比较便捷。
我国出版的年鉴主要有《中国百科年鉴》、《中国教育年鉴》、《中国体育年鉴》、《中国文艺年鉴》、《中国古典文学研究年鉴》、《中国历史学年鉴》等。现在,年鉴被广泛使用来全面反映一个地方各方面的情况,以作为今后编纂地方志的资料汇编,如《红河州年鉴》、《蒙自年鉴》。
手册是汇集经常需要参考的文献资料或专业知识的工具书,也称大全、指南、便览、要览、全书等。手册收录的多为一些常用的数据或资料,是我们检索一般资料的主要工具。手册一般分为综合性手册和专科性手册两种,前者如《中华人民共和国资料手册》、《世界各国概况》,后者如《各国货币手册》、《家用电器手册》。
类书和政书是我国所特有的参考工具书类型,是我们学习和研究我国古代文化、历史的重要工具。类书是采辑古籍文献中的有关资料并按类别或韵目编排,以供寻检、征引或辑佚之用的工具书。类书是各种材料的分类汇编,这些材料多为片断,少数为整篇作品。类书收录资料的范围非常广泛,包括史实典故、名物制度、诗赋文章、成语典故、俪辞骈语、自然知识等,与百科全书相似,所不同的是,它只罗列文献记载的原始资料而不加评述,而百科全书重在收集科学知识并将这些知识作概括性论述。
类书的编纂起源于三国魏文帝时王象等人奉诏编纂的《皇览》,现存最早的是唐初由虞世南编辑的《北堂书钞》,最大的是明朝人解缙等编辑的《永乐大典》(现仅存原书的 3 %),现存最大且最完整的是清人陈梦雷、蒋锡廷等编辑的《古今图书集成》。其他可供利用的类书还有《艺文类聚》、《初学记》、《太平御览》、《册府元龟》、《文苑英华》、《太平广记》、《三才图会》、《佩文韵府》、《骈字类编》、《渊鉴类涵》、《子史精华》等。
类书的作用是:一,查考历史典故、历史事件、历史资料;二,查找诗词掌故、文句出处、事物源流;三,辑佚和校勘古籍。
政书是收录历代或某个朝代政治、军事、经济、文化等方面典章制度的史料,并分类编排而成的工具书。政书大致分为三类:通记历代典章制度的政书,以“十通”为代表(“十通”包括《通典》、《续通典》、《清通典》,《通志》、《续通志》、《清朝通志》,《文献通考》、《续文献通考》、《清文献通考》、《清续文献通考》);记某一朝代典章制度的“会要”、“会典”,如《唐会要》;记录特定范围、特定方面典章制度的政书,如《历代职官制》、《历代兵制》。
政书的作用是:一,提供古代典章制度资料,有助于我们了解古代政治、军事、经济、文化等发展情况;二,提供古代职官机构及其编制与职责、田赋税收等资料。
是用数字或简洁的文字,以表格或编年的形式记载事物发展的工具书,其特点是眉目清楚,信息密集,易于查检。表谱通常用来查检时间、历史事件、人物资料等。如《历代职官表》、《二十史朔闰表》。
图录就是以图片形式直观地反映事物的工具书,包括地图、历史图谱、文物图谱、人物图象等。
(二)文献检索的一般程序
文献检索工作是一项实践性和经验性很强的工作,对于不同的项目,可能采取不同的检索方法和程序。检索程序与检索的具体要求有密切关系,大致可分为以下几个步骤。
首先应分析待查项目的内容实质、所涉及的学科范围及其相互关系,明确要查证的文献内容、性质等,根据要查证的要点抽提出主题概念,明确哪些是主要概念,哪些是次要概念,并初步定出逻辑组配。
选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等,在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。如果一种检索工具同时具有机读数据库和刊物两种形式,应以检索数据库为主,这样不仅可以提高检索效率,而且还能提高查准率和查全率。为了避免检索工具在编辑出版过程中的滞后性,还应该在必要时补充查找若干主要相关期刊的现刊,以防止漏检。
一般的检索工具都根据文献的内容特征和外部特征提供多种检索途径,除主要利用主题途径外,还应充分利用分类途径、著者途径等多方位进行补充检索,以避免单一种途径不足所造成的漏检。
应用检索工具实施检索后,获得的检索结果即为文献线索,对文献线索进行整理,分析其相关程度,根据需要,可利用文献线索中提供的文献出处,索取原文。
(三)检索语言的涵义与作用
1.检索语言的概念
检索语言是应文献信息的加工,存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。
2.检索语言的作用
检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。
检索语言的主要作用如下:
(1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;
(2)对内容相同及相关的文献信息加揭示以集中或其相关性;
(3)使文献信息的存储集中化,系统化,组织化,便于检索者按一定的排列次序进行有序化检索;
(4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;
(5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
(四)文献检索工具的涵义及其类型
1.检索工具的涵义
检索工具是指用以报导,存贮和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。一般说来,检索工具应具备以下五个条件:
(1)明确的收录范围;
(2)有完整明了的文献特征标识;
(3)每条文献条目中必须包含有多个有检索意义的文献特征标识,并标明供检索用的标识;
(4)有索引部分,提供多种必要的检索途径。
(5)全部条目科学地,按照一定规则组织成为一个有机整体;
2.检索工具的类型
目前可供人们使用的检索工具有很多,不同的检索工具各有特点,可以满足不同的信息检索的需求检索工具有不同的分类方法,按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具。按照载体形式不同可分为:书本式检索工具,磁带式检索工具,卡片式,缩微式,胶卷式检索工具。按照著录格式的不同可将检索工具分为以下四种类型。
(1)目录型检索工具
目录型检索工具是记录具体出版单位,收藏单位及其他外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等;目录的种类很多,对于文献检索来说,国家书目,联合目录,馆藏目录等尤为重要。
(2)题录型检索工具
题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名,著者姓名,文献出处等),无内容摘要,是快速报道文献信息的一类检索工具。它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。
(3)文摘型检索工具
文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。按照文摘的编写人,可分为著者文摘和非著者文摘。著者文摘是指按原文著者编写的文摘;而非著者文摘是指由专门的熟悉本专业的文摘人员编写而成。就其摘要的详简程度,可分为指示性文摘和报导性文摘两种。指示性文摘以最简短的语言写明文献题目,内容范围,研究目的和出处,实际上是题目的补充说明,一般在100字左右;报导性文摘以揭示原文论述的主题实质为宗旨,基本上反映了原文内容,讨论的范围和目的,采取的研究手段和方法,所得的结果或结论,同时也包括有关数据,公式,一般五百字左右,重要文章可多达千字。
(4)索引型检索工具
索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名,刊名,人名,地名,语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具 。索引的类型是多种多样的,在检索工具中,常用的索引类型有:分类索引;主题索引;关键词索引;著者索引等。
(一)认识搜索引擎
1.搜索引擎发展史
1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(注:后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista
Public Beta Press Release
)。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC
Alpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。
AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java
applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。(2003年2月18日,Altavista被Overture收购。)
然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(注:2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry
Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey
Brin和Scott
Hassan、Alan
Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen
Project)开始后,技术升级明显加快。
2.搜索引擎原理
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当 用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的 相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
(1)从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
(2)建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用 这些相关信息建立网页索引数据库。
(3)在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不 同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死 链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
互联网虽 然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索 引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网 页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索 引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
3.常用中英文搜索引擎指南
| 百度 | ww.baidu.com | 约1.24亿中文网页,平均2周更新一遍,对部分网页每天更新。提供百度快照、网页预览/预览全部结果、相关搜索词、错别字纠正提示、Flash搜索、信息快递、百度搜霸、搜索援助中心,推荐使用MP3搜索。Baidu搜索技巧 |
| 谷歌 | www.google.com/intl/zh-CN/ | 中文网页数不详,按比例推算约8500万。平均1月更新一遍,对部分网页每日更新,由 BasisTechnology 提供中文处理技术,搜索相关性高,高级搜索语法丰富。提供Google工具条、网页快照、图像搜索(4.25亿图片)、新闻组搜索。Google搜索帮助 |
| Alltheweb | www.alltheweb.com | 4480万简体中文网页,1401万繁体中文网页,需单选中简体中文语言搜索,否则效果不好。 |
| Openfind中文 | www.openfind.com/cn.web.php?u=cn | 中文网页数不详,从检索效果上看与Google相近。更新较慢,提供按网页大小或日期排序。Openfind查询秘诀 |
| 北大天网 | http://e.pku.edu.cn/ | 约6000万网页,更新略慢,搜索相关性较低。提供天网搜霸、历史网页。推荐使用ftp搜索。天网使用帮助 |
| www.google.com | 30亿网页(约1/4非全文索引),用户界面出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。 | |
| Alltheweb | www.alltheweb.com | 21亿网页,高级检索强大,有新闻、图片、MP3、Video、ftp,利用ODP对搜索结果简单分类。 |
| Inktomi | search.positiontech.com | 自称30亿网页(搜索效果上看不出这么多),技术设置和参数可调性高,支持的门户搜索数据库和排序多不同,可到 Hotbot 使用Inktomi的高级搜索。 |
| Northernlight | nlresearch.northernlight.com | 约7亿网页+7100出版物数据,需选中"World Wide Web only"搜索。速度略慢,杂志数据有独特搜索价值,能对结果作简单自动分类,翻页数不限,支持通配符。 |
| Wisenut | www.wisenut.com | 约14亿网页,网页索引数据库偏老,提供类似简单自动分类和相关检索词的WiseGuide,及预览搜索结果的Sneak-a-Peek。 |
| Openfind | www.openfind.com | 自称35亿网页(搜索效果上看不出这么多),旧网页死链接多,支持按网页大小或日期排序。 |
| Teoma | www.teoma.com | 约3亿网页,速度略慢,支持类似自动分类的Refine;同时提供专业链接目录的Resources。 |
| Gigablast | www.gigablast.com | 1.5亿网页,提供网页快照。 |
注1:如果搜索结果网页中有单词涉及政治敏感内容,网友可能看到服务器被重置的信息,并且短时间内无法使用该搜索引擎,不用紧张,只要等几分钟或换个IP就又能使用了。
注2:以上搜索引擎的高级搜索语法详细使用,请去各搜索引擎的Help学习,或集中去 这里 查阅。
目前,有自己网页索引数据库的英文搜索引擎,一共只有上边几个。其它的如 Yahoo,AOL,LYCOS,MSN,Looksmart等虽然名为搜索引擎,都没有自己的网页索引数据库,其实用的都是以上搜索引擎的网页索引数据 库。另外,门户网站的搜索引擎多半默认为分类目录搜索,累赘又多,无法提供专业搜索引擎一样的丰富功能和统一丰富的搜索语法,所以在搜索的速度、相关性、 数量、易用性上往往与专业搜索引擎差距甚远,缺乏使用价值,就不一一介绍了。但以下三个搜索引擎,虽然也没有自己的网页索引数据库,却都有其特色和使用价值,值得一提:
| Askjeeves | www.ask.com | 有超过700万的大型问题库,支持自然语言提问搜索,适合搜索常识性的问题答案。 |
| Vivisimo | www.vivisimo.com | 元搜索引擎,有目前最好的搜索结果自动分类技术。下拉菜单还支持各新闻、购物、独立搜索引擎等的自动分类搜索。 |
| Faganfind | www.faganfind.com | 我们经常会遇到普通网页搜索以外的各种特殊搜索需求。Faganfind象一个书签,它为几十种特殊搜索需求都挑选了多个优秀搜索工具,你可以点击子分类进入挑选使用,也可以很方便的直接用它默认的搜索工具(通常它默认推荐的都很好)。 |
(二)搜索引擎运用常见问题——专家谈搜索引擎使用技巧
真正意义上的搜索引擎是指网页全文搜索引擎。网页全文搜索引擎,其实是个大的索引表,记录了每个网页上出 现过哪些关键词,当你输入某个关键词搜索的时候,所有含有这个关键词的网页就被找出来,并按一定顺序排列。网页全文搜索引擎的信息量大、准确性高、功能 强、搜寻资料的速度也快,可以搜到你从未想过,甚至你不敢想像的内容,但前提是你要掌握一点使用技巧。下面笔者就来介绍几种最基本也是最有效的搜索技巧。
搜索之前先思考
在你使用搜索引擎搜索之前,应该先花几秒种想一下,我要找的东西网上可能有吗?如果有,可能在哪里,是什么样子的?网页上会含有哪些关键字?这次搜索, 你应该使用新浪还是搜狐? Google还是百度? 分析你的需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。
学会使用两个关键词搜索
如果一个陌生人突然走近你,向你问道:“北京”,你会怎样回答?大多数人会觉得莫名其妙,然后会再问这个人到底想问“北京”哪方面的事情。同样,如果你 在搜索引擎中输入一个关键词“北京”,搜索引擎也不知道你要找什么,它也可能返回很多莫名其妙的结果。因此你要养成使用多个关键词搜索的习惯,当然,大多 数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。
比如,你想了解北京旅游方面的信息,就输入“北京 旅游”这样才能获取与北京旅游有关的信息;如果想了解北京暂住证方面的信息,可以输入“北京 暂住证”搜索;如果要下载名叫“xxxx”的MP3,就输入“xxxx 下载”来搜索。
学会使用减号“-”
“-”的作用是为了去除无关的搜索结果,提高搜索结果相关性。有的时候,你在搜索结果中见到一些想要的结果,但也发现很多不相关的搜索结果,这时你可以找出那些不相关结果的特征关键词,把它减掉。
比如,你要找“申花”的企业信息,输入“申花”却找到一大堆申花队踢足球的新闻,在发现这些新闻的共同特征是“足球”后,输入“申花 -足球”来搜索,就不会再有体育新闻来麻烦你了。
点击搜索结果前先思考
一次成功的搜索由两个部分组成:正确的搜索关键词,有用的搜索结果。在你点击任何一条搜索结果之前,快速地分析一下你的搜索结果的标题、网址、摘要,会 有助于你选出更准确的结果,帮你节省大量的时间。当然,到底哪一个是你需要的内容,取决于你在寻找什么,评估网络内容的质量和权威性是搜索的重要步骤。
一次成功的搜索也经常是由好几次搜索组成的,如果对自己搜索的内容不熟,就应该先用简单的关键词测试,不要忙着仔细查看各条搜索结果,而是先从搜索结果 页面里寻找更多的信息,再设计一个更好的关键词重新搜索,这样重复多次以后,就能设计出很棒的搜索关键词,也就能搜索到满意的搜索结果了。
善于改正错误
经常会有这样的事情发生:你似乎已尽了全力来搜索,但是依然没有找到需要的答案。这个时候,请不要放弃,认真回顾检查你的搜索过程,也许只是因为一个小差错。一个看上去毫无希望的搜索,很有可能在你检讨完自己的搜索策略后获得成功。
下面描述了初学者搜索时容易犯的5个低级错误和解决方法,正是因为你经常犯这些错误,所以你总是得到无用的、荒谬的或者完全没有意义的搜索结果。而一旦你认识到这些错误,将很容易把这些小鬼从你的搜索经历中永远驱逐出去。
常见错误1:错别字
经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“ 谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网 上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。
常见错误2:关键词太常见
搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如,搜索“ 电话”, 有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词 或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。当然,如果你想找的是一串汽 车网站或一串MP3网站,那么用“汽车”、“MP3”搜索就是正确的。
常见错误3:多义词
要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词 的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪 哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。
常见错误4:不会输关键词,想要什么输什么
搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。
网友错把搜索引擎当成是听话的服务员了,其实搜索引擎是很机械的,当你用关键词搜索的时候,它只会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。
而问题在于,没有一个网页上会含有“现代爱情故事歌词”和“上海到成都列车时刻表”这样的关键词,所以搜索引擎也找不到这样的网页。但是真正含有你想找 的内容的网页,应该含有的关键词是“现代爱情故事”、“歌词”,“上海”、“成都”、“列车”、“时刻表”,所以你应该这样搜索:“现代爱情故事 歌词 ”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。
明白了吗?不要用你心中想的大白话去搜索,当搜索结果太少甚至没有的时候,你应该输入更简单的关键词来搜索,猜测你找的网页中可能含有的关键词,然后用那些关键词搜索。
常见错误5:在错误的地方搜索
正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引 到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是 应该去相关的网站寻找,当然,寻找相关网站的任务搜索引擎是当仁不让的。
搜索引擎是个好东西,掌握使用技巧后,你会发现互联网远比想像中的精彩,而你竟能自由自在地翱翔于互联网之上。“我们若能更妥善地搜寻资料,实在已经改变世界。”
一般情况下,所有电子资源都只能在校园网使用,如可在校外使用的,将会特别加以说明。 所有电子资源都可以从图书馆网站给出的链接进入。为正常使用电子资源,请按要求安装各个电子资源的阅览器(参见阅览器下载)。进入电子资源的网站后,具体使用方式请参见下面给出的说明。如果还有其他问题,欢迎致电图书馆。
数据库检索的基本步骤——参见“馆藏目录——金盘书目”
超星电子图书使用说明
CNKI 中国期刊全文数据库操作指南
标榜读者随身电子图书馆使用说明
中国图书分类法简表(第四版)

