统计分析和数据挖掘
在企业管理信息化的大背景下,数据分析技术已经成为企业应用关注的一个焦点,但由于历史原因,大部分人对传统的统计分析和新起的数据挖掘都不太了解,存在着许多模糊认识。这里先谈谈对统计方法的两种常见的误解。
对统计分析的两种误解
统计学有很强的数学背景,所以常见的误解是:统计学家约等于数学家,数学家约等于陈景润,陈景润约等于歌德巴赫,于是统计学家约等于歌德巴赫。问题来了,歌德巴赫和企业的数据管理有什么关系呢?对于统计学来说,这种误解实在是极大的不幸。著名统计学家George Box有句名言:所有的模型都是错误的,而其中有些模型是有用的。这种话表面上看来是很放肆的,但统计学家们在处理实际问题的时候,所采取的就是这种实用主义态度。统计学家是一群跟数据打交道的工程师,工程师们也要使用大量的数学公式和计算,但决不是坐在屋子里证明高深的数学定理或者哥德巴赫猜想的怪才。
还有一种误解是:统计好象和会计连在一起。说这种话的人其本意是指企业里统计员的工作和会计的工作差不多,统计员和会计的工作为统计分析提供了数据基础。但我们一般说到的统计分析却是指基于数理统计发展起来的诸多方法。这样看来,把统计和会计混为一谈是有些低估统计分析的难度和潜力了。简单说来,会计系统把营业活动转化为数据,在数据编码和标准化方面都有独到之处,它为企业管理提供了大量的基础数据,会计系统构成了定量管理的基础设施;统计方法如果要在企业的管理实践中发挥更大的作用,就应该学习会计的这种标准化思路,让自己更便于使用,更加贴近用户的理解,一句话,变得更加“傻瓜化”。
再看企业决策支持系统
从企业决策支持系统的角度来评估各种量化管理方法的意义,这时实施一种具体的统计方法或者数据挖掘技术,实际上就相当于实施一个项目。量化管理方法很多,而统计方法是一个大类,尤其适用于在不确定环境和信息不充分下的决策。
企业在选用系统的时候,该怎么办?一个通用的问题处理模型就能够说明,通用的问题处理模型包括:问题、可用的资源和技术、成本,综合考虑这三个方面的作用就能够达成一个相对合理的解决方案。这个通用的问题处理模型当然适用于企业寻找信息化途径的努力。
从一个统一的角度来看,企业定量管理的基础是数据的收集和处理系统,一般叫作决策支持系统。用这个金字塔图可以清楚地看到逐级提炼的过程(从噪音到数据、信息、知识和智慧)的提炼过程。决策所依赖的,至少是知识这个层次的加工结果,而未加工的原材料就是所谓的噪音。从这个广义的模型出发,我们可以把会计看作一个信息系统,各个层次之间的交界处需要采用特定的方法来完成提炼,而每个界面上可以运用的技术都是不一样的。
一个信息系统可以包括会计系统、数据库体系和数据分析体系,有一种常见的误解认为统计方法只涉及从数据以后开始的分析工作。其实,巧妇难为无米之炊,统计方法的运用效果取决于基础数据,而收集何种基础数据,怎样节省收集数据的成本,如何降低数据收集过程中的误差,都需要一定的理论指导,统计学为回答这些问题提供了许多很有效的解决方案。
和实际的矿山一样,开掘银矿、煤矿和金矿所用的技术是完全不一样的。完成从噪音到智慧的过程包括其中的中间产物,也有一个对症下药的问题,再考虑到实施的成本和数据分析的难度(比如数据量,数据维数等等),数据处理很容易被人理解为一种艺术。说统计分析和数据挖掘带有艺术色彩应该基本正确,这就象淘金和看病一样,不一定最贵的药就最好。比如对统计方法和统计软件的选用,就是有区别的。小型企业的信息化,基本上依赖ACCESS数据库和EXCEL界面就可以完成;大型企业的信息化则需要和专业的管理软件公司合作才能完成。早期信息化的成本和失败率往往都比较高,这和病急乱投医的情形差不多。
有些人生富贵病,典型症状就是一定要吃贵重的药,否则病好不了,这种现象在企业信息化中也能看到。打个比方,美国企业的信息化接近于坚持锻炼,中国企业的信息化则更像病后康复——有了健康人的示范效应,中国的企业就特别着急,不注意信息系统和自身管理实践的融合