常用检索工具1检索工具的分类1按照信息搜集方法分类按照信息搜集方法的不同搜索引擎系统可以分为三大类1目录式搜索引擎DirectorySearchEngine以人工方式或半自动方式搜集信息由编辑员查看信息之后人工形成信息摘要并将信息置于事先确定的分类框架中信息大多面向网站提供目录浏览服务和直接检索服务该类搜索引擎因为加入了人的智能所以信息准确导航质量高缺点是需要人工介入维护工作量大信息量少信息更新不及时这类搜索引擎的代表是YahooLookSmartAskJeevesSnapOpenDirectory2机器人搜索引擎CrawlerBasedSearchEngine由一个称为蜘蛛Spider的机器人程序以某种策略自动地在Internet中搜集和发现信息由索引器为搜集到的信息建立索引由检索器根据用户的查询输入检索索引库并将查询结果返回给用户服务方式是面向网页的全文检索服务该类搜索引擎的优点是信息量大更新及时毋需人工干预缺点是返回信息过多有很多无关信息用户必须从结果中筛选这类搜索引擎的代表是AltaVistaNorthernLightExciteInfoseekInktomiFASTLycosGoogle3元搜索引擎MetaSearchEngine这类搜索引擎没有自己的数据而是将用户的查询请求同时向多个搜索引擎递交将返回的结果进行重复排除重新排序等处理后作为自己的结果返回给用户服务方式为面向网页的全文检索这类搜索引擎的优点是返回结果的信息量大缺点是不能够充分使用元搜索引擎的功能用户需要做更多的筛选这类搜索引擎的代表是WebCrawlerInfoMarket目前商业的搜索引擎站点正在结合各种搜索引擎的优点在类型上有逐渐融合的趋势例如Yahoo在保持人工分类的同时使用Inktomi的机器人搜索引擎用户查询时如果选quot网站搜索便搜索人工分类库选择网页搜索便搜索机器人搜索引擎的索引库一些传统的机器人搜索引擎也增加了人工分类的内容以提供高精度的导航信息另外搜索引擎站点有门户化的倾向在提供搜索服务的同时提供多样的网络服务如新闻股票天气预报虚拟社区游戏电子商务等等成为名副其实的网络门户2按照检索软件分类按照服务提供方式的不同检索软件也可以分为三大类全文数据库检索软件非全文数据库检索软件主题指南类检索软件全文数据库检索软件正常运作的前提是网站拥有大量的信息因此必须依靠强大的数据库作为后盾它能够提供完整的文献和信息检索查全率很高但由于信息量非常大检索起来比较困难对检索技术的要求很高非全文数据库检索软件具有速度快使用简便索引量大的特点但仅提供部分全文检索有时需要二次检索感到不太方便主题指南类检索软件是目前网络检索中最常用的检索软件这种软件查准率高速度快使用方便现大部分网站都具备主题指南类检索功能3按照检索语言分类目前因特网几乎使用了世界所有语言每一种语言都形成了自己独特的检索体系比较常用的语言有英文法文德文日文俄文中文等2全文数据库的检索软件1AltaVista检索引擎AltaVista检索引擎为数字设备公司DEC开发号称是目前最大的Web索引数据库图33是它的网络主页AltaVista检索引擎提供两种检索方法简单检索和高级检索高级检索包括了简单检索的所有特性还允许使用布尔运算符和接近操作符括号等查找的结果按关键词排序AltaVista总能返回有用的信息但由于没有对内容进行选择它的信噪比也是最大的图133AltaVista检索引擎使用AltaVista检索引擎时应注意要进行有效的检索最好尽可能多而精确地输入描述所感兴趣的主题的词或词组提供的词组越精确检索结果就越好如果你输入的词包含大写字母则检索对大小写就比较敏感如输入Telephone则只检索含有这个词的内容而输入telephone则不论大小写都检索如果要把一些词作为词组或一个整体来查询时最好把它们加上双引号如果要求特定单词包含在索引的文档中可以在它前面加一个号如Telephone并且在号和单词之间不能有空格相应的如果要排除含有特定单词的文档可以在它前面加一个号如cool进行简单查找的时候可以在单词的末尾加一个通配符来代替任意的字母组合最多可代替5个小写的字母AltaVista的通配符是号星号不能用在单词的开始或中间AltaVista高级检索包含了简单检索的所有特性还可以有布尔和接近操作符括起来的逻辑组合等AltaVista支持的布尔和接近检索二元操作符有ANDampORNEAR和一元操作符NOTAND连接的若干词在文件中要同时出现OR确保检索式中至少有一个词出现在文件中NOT将某一个词从检索中排除出去它们的优先级是递减的另外要注意如果把检索的表达式写成sportsNOTswimming则语法上是不合逻辑的正确的写法应该是sportsANDNOTswimmingNEAR确保查询的两个词在10个字节内出现它的优先级是最低的如果将上述符号用在检索表达式中最好给检索表达式加上引号以减少检索表达式的混乱AltaVista的优点是在所有的检索软件中它的功能最全面查全率和查准率最高全文标引系统质量可靠在检索语句上与传统的联机检索语言类似更容易掌握系统反应速度快网页链接可靠缺点是文件相关性评估的质量一般2Excite检索引擎Excite检索引擎是Architext软件公司的产品该数据库界面友好用户可以利用关键词词组和自然语言检索自然语言检索越详细越好图134是Excite检索引擎的网络主页图134Excite检索引擎网络主页Excite检索引擎有基本检索和高级检索两种检索方式其中Excite中要求的单词和排除的单词的使用方法同AltaVista一样使用号和号Excite支持二元操作符ANDORANDNOT和一元操作符NOT它也支持用括号来构成逻辑组缺省的关键词使用的是隐式的OR即它检索含有指定的任意的单词Excite的优点是采用了概念检索的技术概念检索是指在检索文件的过程中不仅能够检索到含有用户提出的关键词的文件还能检索到与用户的检索主题密切相关但并没有包括这些主题词的文件在所有的检索软件中它的更新速度最快且其数据库的规模也最大另外它在提供相关信息方面表现颇佳Excite的缺点是它的相关性排序质量一般检索结果也显得不尽人意随着世界华人对因特网商业价值的认同越来越多的华人开始利用因特网传递商业信息中文网站内容也不断丰富面对巨大的市场利益的诱惑出现了越来越多的中文检索工具一些原来的英文搜索网站也纷纷推出自己的中文网站Excite也不例外图135是Excite中文站点的起始页