互联网信息检索原理
1., 从信息利用的角度考察,互联网信息资源由娜三方面构成? 答: 从
信息利用的角度考察,互联网信息资源由连接在网上的计算机中的无数信
息、网上的各种信息工具以及网络通信并道三方面构成-
2 简述网络信息资源的特点。答: 网络信息资源的特点是数量庞大、
增长迅速; 更新频繁、变化无常、分布散乱: 良券混杂-
3如何正确认识网络信息与印刷性出版物在出版类型上的对应关系?
按照出版类型区分,网络信息资源有着和印刷型出版物类似的对应关系。
例如,印刷型的期刊有网络期刊与其相对应,印刷型的图书有网络图书与
其相对应,印刷型的报告有网络报告与其相对应,如此等等。这种对应关
系,仅限于我们对网络文献信息类型的认识,不能应用于具体的文献。例
如,早期的印刷型文献一般不会有网络形式,多数的当前印刷型学术文献
也不太可能找到对应的网上电子版本。
4.。 何谓原创性网络信息和二次网络信息? 按照内容是否具有原创性,
网络信息资源有一次资源和二次资源的区分。一次资源是指首次发表的原
创性信息,二次资源是转载已有的信息。
5. 何谓可见网络信息和不可见网络信息? 按照是否属于搜索引擎检索
范围,网络信息资源可分为可见资源和不可见资源两类。
6. 简述网络可见信息的两个条件。可见资源是搜索引擎可搜索到的资
源。这种资源要满足两个条件: 一是必须含有 HTML 超链接,二是没有设置
口令,
7,简述网站和网页的关系。网页是用 HTML 或 DHTML、XML 等语言写成
的文本文件。而网站则是有独立的域名,由若干相关网页组成的一个站点。
按照微软公司的比喻,如果把 WWW 当作是 Internet 上的大型图书馆,则每
个 Web 站点就是一本书,每个 Web 页面就是书的一页。
8. 为什么说网络学术信息不能唾手可得? 原因主要有三: 一是查找主
页信息通常要通过查找搜索引擎之类的中介数据库才能进行。而使用这些
工具需要一些专门的技术,希望高效率地查找网络信息时尤其如此。 二是
一般情况下只使用一两种搜索引擎所得的结果往往是沧海一桶。三是互联
网上学术类与非学术类信息的比例是 1 : 10。再则,网上学术信息很多是以
不可见资源形式存在着。因此查找网上信息的难度更大一些。9. 按工作方
式区分的搜索引擎有哪三类搜索引擎? 按照工作方式的不同,搜索引擎可
以分为主题引擎、目录引擎和多元引擎-
10. 简述主题引擎的三个组成部分。 主题引擎由三个主要部分构成:
Robot、Index 和搜索软件。
11, 请举出典型的国外和国内主题引擎各一个。国外主题引擎的代表
是 Google,国内代表为百度。
12. 为什么主题引擎的分类途径不如目录指南型引擎? 主题搜索引擎
提供的分类途径或者为自动分类的结果,或是借用其他目录引擎的分类数
据(例如 Google 利用网景公司的 0pen Directory 分类) ,因而分类检索效
果不如由人工仔细分类的目录指南型搜索引擎.
13. 简述主题引擎与目录指南型引擎的主要区别。(1) 信息处理深度,
目录指南型引擎为网站,主题型引擎为网页, 《2) 信息处理方式,目录指
南型引擎为有人工参与,主题型引擎为全自动化; 《3) 信息的质量和数量,
目录指南型引擎质量上相对较高,主题型引擎数量上相对较多。
14. 为什么目录指南型引擎的主题查找效果不如主题型引擎? 目录指
南型引擎的主题检索只在对站点人工描述语言中进行,查找范围有限,所
得结果通常是分类类名和网站名称,结果数量远不如主题引擎。
15. 举出国内外目录指南型引擎典型代表各一个。目录引擎的国外代
表是 Yahoo! ,国内代表有新浪网。
16, 什么是多元搜索引擎? 简述其工作原理。多元引擎是一种起检索
中介作用的搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户
查询一个关键词时,它把查询请求转换成其他数个搜索引擎能够接受的命
令格式,并行地或者有选择性地访问这些搜索引擎并查询这个关键词,处
理这些搜索引擎返回的结果,然后再返回给用户。
17. 举出国内外多元引擎典型代表各一