网络信息检索的工具
[摘 要] 搜索引擎是人们使用Internet信息资源的重要工具。本文对 目前 的中文搜索引擎进行了简要的 分析 ,指出了其存在的缺陷和 发展 的方向。
[关键词] 信息检索 中文搜索引擎 存在的 问题 发展方向
随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和 方法 。
一、搜索引擎的概念和及类型
搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的 内容 和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。
2.机器人搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百度,google、天网为代表。它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
机器人搜索引擎具有庞大的全文索引数据库。其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
3.元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定 影响 的中文元搜索引擎。
二、现阶段中文搜索引擎存在的主要问题
1.信息覆盖面有限。现阶段搜索引擎所覆盖的数据库的规模是非常有限的,据美国 科学 期刊Natures一篇报告中称,全球最大的搜索引擎也只能覆盖现有网页的16%。中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部 网络 信息的5%)等原因在这方面尤为突出。
2.查全率不高。查全率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比,是判断检索系统质量的度量之一。
国内绝大多数的网站组织的信息大多都是通过浏览方式获得内容。即使是经过精心组织、编排非常合理的网站,也会有70%~80%的网页不能被搜索引擎检索到。中文目录式搜索引擎因需人工介入、维护量大,在这方面表现较明显。
3.查准率较低。查准率更是判断检索系统质量的重要尺度。是指系统所检索到的真正与查询内容相关的文档占检索出的所有文档数的百分比。
造成查准率低的原因是,部分搜索引擎的分类体系与科学知识体系之间缺乏内在联系;类目之间逻辑关系模糊,导致检索路径与搜索引擎类目错位;信息加工深度不够;检索功能单一;检索词的专指性较差;大部分的检索结果是题录式而非全文式,其内容简单等等。机器人搜索引擎的分类和索引缺乏人工的参与,其查准率不如目录式搜索引擎,且检索结果中还含有大量的重复、虚假的信息。
4.专业性的搜索引擎发展迟缓。专业性的搜索引擎是为专门收录某一行业,某一主题的信息而建立,能够提供专题信息查询服务的搜索引擎。目前中文搜索引擎大多是综合性的,能同时收录各行业、各学科的多种信息,但在反映某一行业或某一专题的信息方面很难做到全面、精确,不能给用户提供特定的信息服务。这就使得专业人员,特别是某一领域的学者、专家不愿意利用中文搜索引擎去查询资料。
5.检索功能方面存在缺陷。一是检索中符合布尔逻辑运算符的搜索引擎极为有限;二是关键词检索输出的结果相关度排序方式杂乱,不能根据用户需要来选择信息输出的方式;三是多数的搜索引擎是面向主题搜索不是面向用户搜索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务;四是检索网站的主页不规范,有些太简,有些又太繁,而且广告内容太多,无法进行有效检索。
三、中文搜索引擎的 发展 方向
1.提高查全率。首先是需要开发分布式的系统。这种系统可以把各个接点当作是新的信息资源,扩大数据库的规模,正在兴起的元搜索引擎属于这种系统,它在接受了用户的查询命令后,可同时用多个搜索引擎进行查询;二是把专业数据库资源纳入自己的检索范围。除了Web信息资源外,网上还有大量的非Web信息资源,如联机检索系统、光盘检索系统、专业数据库系统。如中文搜索引擎能把这些Web和非Web资源结合起来使用,即使有的只能查到题录、文摘等 内容 ,也大大扩展了检索范围,能为用户提供较全面的检索需求。
2.提高查准率。需解决以下几个难关:首先需提高搜索引擎的信息过滤功能。在对 网络 信息进行集中的搜集之后,搜索引擎还需对这些信息进行鉴别和过滤,即剔除大量的无用信息,而把有效的信息提炼出来并加以聚集;第二则是需对专家过滤后的信息进行一定的检索标引,并给予相关的标识符号,如关键词、分类号、主题词等各种标识,其关键是利用智能检索技术,提高准确性;把检索的结果存储在相应的数据库中,