摘要: 互联网信息智能整合系统是为提高互联网信息的及时人性、准确性、利用效率,基
于自然语言处理和人工智能技术采用. Net 框架和 SOA 架构而设计的,面向行业基于互联网
的信息和能整合平台。系统把网络师蛛技术、人工智能、RSS 内容分析与处理技术、Agent
技术等基础技术应用于互联网信息整合领域,灵活应用于互联网信息采集、信息处理和分析、
信息管理等各个环节-
中国论文网
关键词,智能,信息,整合
中图分类号,TP393. 02 文献标识码; A 文章编号,1007-9599 (2012) 11-0000-01
互联网信息智能整合系统是依托中间件和人工智能技术进行互联网信息收集、处理和管
理,最终提供吾联网动态信息整全发布服务的信息系统。主要功能是自动对互联网上成千
上万的政府网站、相关行业网站、竞争对手网站上的目标信息进行实时监测、采集和处理,
自动完成信息的夭选、去重、分类、入库并将各个网站中不同结构和表现形式的有用信息,
按照统一、规范的结构进行整再、分类,形成高质量、便于利用和检索的结构化数据库,并
提供一套功能完善的信息检索、数据统计和网站发布系统。下文针对软件中所应用的关键技
术作以简要分析:
一、多智能 Agent 技术
Agent 技术是当今计算机科学的一个研究热点,它的不断发展为我们提供了一个将信息
发现个性化和智能化的契机。Agent 是指信息世界中的软件机器人,它是代表用户或其他程
序,以主动服务的方式完成一组操作的机动计算机实体。Agent 技术的本质就是研究如何使
个或多个实体尽可能地不打揽用户,依靠其自身的能力,采用各种可能的方法和技术,完
成用户所委托的较为复杂和蛇天的任务。Agent 技术区别于传统技术的主要特征是它具有自
制能力、智能和目标静动属性,能够通过各种社交、学习、推理等方法感知和适应复杂的动
厅环境,具有自动追求目标的能力,它们可以理解用户的信息需求和兴趣仿好,会在用户发
出请求之前就定位并搜索信息,以保在用户需要时及时提供。Agent 技术是传统检索技术的
发展和飞跃,具有强大的开放性、灵活性和协作性。Agent 技术是解决现有 WAW 信息查询系
统收集率低,查询和处理能力差的一个很有前途的方法。
互联网信息智能整合系统采用 Multi-Agent 协作区的框架结构,在该框扣结构下各个
Agent 具有自主性,能够基于独立的知识采用机器学习的方法自主地完成一定的信息的搜集
和处理任务,各个 Agent 具有个性化的特点,不同的 Agent 针对不同任务可以拥有不同的知
识府、不同工作策略,以求取得最佳的工作效果,各个 Agent 具有学习性,通过不同的机器
学习机制,可以不断提高该 lgent 性能和效果,各个 Agent 也具有协作性,可以通过协作的
方式完成各种复杂的竞争情报的搜索和分析任务,,
二、RSS 内容分析与处理技术
RSS 《也叫聚合内容,Really Simple Syndication) 是一种猫述和同步网站内容的格式,
是目前使用最广泛的资源共享应用,可以被称为资源共享模式的延伸。RSS 是互联网站点用
来和其它站点之间共享内容的一种方式,用户也可以通过 RSS 阅读器,在不打开网站内容页
面的情况下阅读支持 RSS 输出的网站内容,网站提供 RSS 输出,有利于让用户发现网站内容
的更新。目前提供 RSS 输出的网站越来越多,尤其是新闻美网站,已成为一种有效的方式-
信息智能浆合系统采用 RSS 订阅方式进行信息采集,所采用的 RSS 内容分析和处理技术|
是公司独立自主研发的具有独立知识产权的技术,该技术针对国内外互联网上 RSS 信息源的
编码繁多、格式不完整、结构错位等各种情形都进行了特殊处理,具有非常好的兼容性和适
应性。
三、网络网蛛技术
网络精蛛即 Web Spider, 是一个很形象的名字, 把互联网比喻成一个网蛛网,那么 Spider
头是在网上中来要去的网蛛。网络嫉蛛是通过网页的链接地址来寻找网页,从网站某一个页
面开始,读取网页的内容,技到在网页中的其它链接地址,然后通过这些链接地址寻接下
个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络网蛛是所有搜
索技术的基础
在抓取网页的时候,网络网蛛一般有两种策略,广度优先和深度优先。广度优先是指网
络风蛛