第一章社会科学统计软件包统计产品与服务解决方案年三位斯坦福大学的学生开发了最早的系统主要有三种运行方式批处理方式完全窗口菜单运行方式程序运行方式界面主要有两个数据编辑窗口和输出窗口数据编辑窗口分为数据视图和变量视图第二章对数据的处理是以变量为前提的变量的命名规则变量类型数值字符日期变量的测量尺度定性变量名义定序变量有序定距变量间隔定比变量比率变量值标签是对变量的每一个可能取值的进一步描述变量标签是变量名的进一步描述的默认的数据文件格式个案是行变量是列第三章均值表示的是某变量所有取值的集中趋势或平均水平均值标准误差就是描述这些样本均值与总体均值之间的平均差异程度的统计量中位数把一组数据按递增或递减的顺序排列处于中间位置上的变量值就是中位数它是一种位置代表值所以不会受到极端数值数据的影响具有较高的稳定性中位数计算公式众数一组数据中出现次数最多的那个变量值在描述数据集中趋势方面有一定意义统计数据的次数分布全距也称极差是数据的最大值与最小值之间的绝对差全距大则数据分散方差是所有的变量值与平均数偏差平方的平均值表示了一组数据分布的离散程度的平均值标准差是方差的平方根表示了一组数据关于平均数的平均离散程度四分位数将一组个案由小到大排列后用三个点将全部数据分为四等分与三个点上对应的变量成为四分位数十分位数百分位数频数就是一个变量在各个变量值上取值的个案数用到频数分析峰度是描述某变量所有值分布形态陡缓程度的统计量峰度为与正态分布相同峰度大于比正态分布陡为尖顶峰峰度小于比正态分布平坦为平顶峰偏度描述数据分布形态的是描述某变量取值分布对称性的统计量偏度为与正态分布相同偏度大于表示正偏数值较大为正偏或右偏偏度值小于表示负偏数值较大为负偏或左偏偏度的绝对值越大表示分布形态的偏斜程度越大标准化分数从平均数为标准差为的总体中抽取一个变量值分数表示的是此变量大于或小于平均数几个标准差最典型的一种分数线性转换就是分数探索分析他在一般描述性统计指标的基础上增加有关数据其他特征的文字与图形描述显得更加细致与全面有助于用户思考对数据进行进一步分析的方案探索分析的内容检查数据是否错误过大或过小的数据均有可能是奇异值影响点或错误数据获得数据分布特征很多分虚方法不能对数据分布有一定的要求对数据规律的初步观察通过初步观察获得数据的一些内部规律交叉列联表分析掌握多个变量在不同取值情况下的数据分布情况从而进一步深入分析变量之间的相互影响和关系多选项分析是对多选项问题的分析方法所谓多选项问题就是一个问题的答案都是顺序变量或名义变量并且允许选择的答案可以有多种组合对于多选项问题分解的方法分为多选项二分法和多选项分类法报表分类个案简明统计报表行形式报表列形式报表第四章过程就是按照用户指定条件对样本进行分组计算均属和标准差单一样本检验是检验某个变量的总体均值和某指定值之间是否存在显著差异前提是样本总体服从正态分布零假设为总体均值和指定检验值之间不存在显著差异两独立样本检验两独立样本各系接受相同的测量目的是了解两样本之间是否有显著差异的存在前提是两个样本相互独立样本来自的两个总体应服从正态分布零假设为两总体均值之间不存在显著差异两配对样本检验是根据样本数据对样本来自两配对总体均值是否存在显著差异进行推断一般用于同一研究对象或两配对对象分别给予两种不同处理的效果比较以及同一研究对象处理前后的效果比较前者推断两种效果有无差距后者推断某种处理有无效果第五章造成结果差异的原因可分为两类随机变量和可控变量根据控制变量的个数可将方差分析分为单因素方差分析和多因素方差分析单因素方差分析测试某一个控制变量的不同水平是否给观测变量走成了显著差异和变动单因素方差实质上采用了统计推断的方法方差分析的前提在不同水平下各总体均值服从方差相同的正态分布总的变异平方和控制变量引起的离差组间离差平方和反映了控制变量的影响随机变量引起的离差组内离差平方和反映了数据抽样大小的误差程度多因素方差分析控制变量在两个或两个以上研究目的是要分析多个控制变量的作用多个控制变量的交互作用以及其他随机变量是否对结果产生了显著影响多因素方差分析需要将观察变量总的离差平方和分解为三部分多个控制变量单独作用引起的平方和多个控制变量交互作用引起的离差平方和其他随机变量引起的离差平方和计算公式协方差分析将那些难控制的因素作为协变量在排除协变量影响的条件下分析控制变量对观察变量的影响从而更加准确的对控制因素进行评价计算公式第六章当视为高度相关视为中度相关视为低度相关说明变量之间的相关程度极弱可视为不相关一般情况下总体相关系数是未知的我们往往用样本相关系数作为总体相关系数的估计值二元变量的相关分析指通过计算变量间两两相关的相关系数对两个或两个以上变量之间两两相关的程度进行分析二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数对两个或两个以上变量之间两两相关的程度进行分析简单相关系数用来衡量定距变量间的相关线性关系可以比较大小二元定序变量的相关分析可以表示观测对象的某种顺序关系和等级相关系数用以衡量定序变量间的线性相关关系利用的是非参数检验的方法偏相关分析是指当两个变量同时与第三个变量相关时将第三个变量的影响剔除之分析另外两个变量之间相关程度的过程距离相关分析是指通过对观测量之间或变量之间相似或不相似的程度的一种测量根据统计量不同距离相关分析可分为相似性测量和不相似性测量根据分析对象不同可分为样本间分析和变量间分析第七章回归分析与相关分析的不同回归分析中变量称为因变量处于被解释的特殊地位在相关分析中变量与处于平等地位研究与的密切程度和研究与的密切程度是一样的在回归分析中因变量是随机变量自变量可以是随机变量也可以是非随机的确定的变量在相关分析中变量和都是随机变量回归分析侧重于考察变量之间的数量变化规律并通过一定的数学表达式来描述变量之间的关系进而确定一个或几个变量的变化对另一个特定变量的影响程度相关分析是测定变量之间的关系密切程度所使用的工具是相关系数回归分析主要解决的问题有通过分析大量的样本数据确定变量间的数学关系式对索取诶难过的数学关系式的可信程度进行各种统计检验并区分出对某一特定变量影响较为显著的变量和影响不显著的变量利用所确定的数学关系式根据一个或几个变量的值来预测或控制另一个特定变量的取值并给出这种预测或控制的精确度是因变量是自变量一元线性回归分析是指在排除其他影响因素或假定其他影响因素确定的条件下分析某一个因素自变量是如何影响另一个事物因变量的过程所进行的分析是比较理想化的回归系数拟合度判定系数多元线性回归分析测定多因素之间的相关关系的问题非线性相关分析在非线性相关的条件下自变量对因变量的数量变化关系线性转化的一般步骤根据经验或者绘制散点图选择适当的非线性回归方程通过变量置换把非线性回归方程化为线性回归用线性回归分析中采用的方法来确定各回归系数的值对各系数进行显著性检验最小二乘法曲线估计在一元回归分析中一般会先绘制自变量和因变量的散点图然后通过数据在散点图中的分布特点选择所言进行回归分析的类型是使用线性回归分析还是某种非线性的回归分析采用曲线估计的步骤首先根据实际问题本身特点同时选择几种模型然后自动完成模型的参数估计并显示检验值相伴概率值等统计量最后选择具有统计量值最大的模型作为此问题的回归模型并做出一些预测时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计通常把时间设为自变量代表具体的经济或社会现象的变量设为因变量研究与之间关系的方法就是时间序列曲线估计含虚拟变量的曲线估计在实际的问题的研究中经常会碰到一些非数据型的变量将自变量是定性变量的先作数量化处理处理方法是引进只取和两个值的型虚拟自变量逻辑回归分析是对定性变量的回归分析第八章聚类分析的方法主要有快速聚类分析法和层次聚类分析法层次聚类分析有两种一种是对样本个案进行分类称为型聚类一种是对研究对象的观测变量进行分类称为型聚类型聚类使具有共同特点的样本聚齐在一起以便对不同类的样本进行分析是对样本间进行距离的计算型聚类使具有共同特征的变量聚在一起以便从不同类中分别选出具有代表性的变量做分析从而减少分析变量的个数是对变量间进行距离的计算层次聚类分析中测量样本之间的亲疏程度是关键聚类的时候会涉及到两种类型亲疏程度的计算一种是样本数据之间的亲属程度一种是样本数据与小类小类与小类之间的亲属程度判别分析先根据已知类别的食物的性质自变量建立函数式自变量的线性组合即判别函数然后对未知类别的新事物进行判断以将之归入已知类别判别分析假定预测变量服从正态分布预测变量之间没有显著相关预测变量的平均值和方差不相关预测变量应是连续变量因变量类别或组别是间断变量两个预测变量之间的线相关性在不同类中是一样的分析各阶段应把握的原则事前组类别的分类标准作为判别分析的因变量要尽可能准确和可靠否则会影响判别函数的准确性从而影响判别分析的结果所分析的自变量应是因变量的重要影响因素应该挑选既有重要特性又有区别能力的变量达到以最少变量而有高分辨能力的目标初始分析的数目不能太少第九章因子分析就是用少数几个因子来描述许多指标或因素之间的联系以较少几个因子反应原资料的大部分信息的统计学因子分析特点因子分析数量远少于原有的指标变量的数量对因子变量的分析能减少分析中的计算工作量因子变量不是对原有变量的取舍而是根据原始变量的信息进行重新组构它能反映原有变量大部分的信息因子变量之间不存在线性相关关系对变量的分析比较方便因子变量具有命名解释性即该变量是对某些原始变量信息的综合和反应变量共同度也成为公共方差反应全部公共因子变量对原有变量的总方差解释说明比例即原有变量的共同度为因子载荷矩阵中的第行元素的平方和因子分析的四个基本步骤确定待分析的原有若干变量是否适合于因子分析构造因子变量利用旋转式的银子变量更具有可解释性计算因自变量的得分构造因子变量的方法根据特征值的大小确定一般取大于的特征值根据因子的累积方差贡献率来确定因子变量的命名解释可以进一步说明影响原变量系统构成的主要因素和系统特征第十章非参数检验不是针对总体参数而是针对总体的某些一般性假设如总体分布的统计分析方法非参数检验根据样本数目以及样本之间的关系可以分为单样本非参数检验两独立样本非参数检验多独立样本非参数检验两配对样本非参数检验和多配对样本非参数检验卡尔检验总体分布的卡尔检验适用于配合度检验是根据样本数据的实际频数推断总体分布与期望分布是否存在显著差异零假设样本来自的总体分布形态和期望分布或某一理论部分没有显著差异二项分布检验从二分类总体中抽取的所有可能结果要么是对立分类中的这一类要么是另一类其频数分布称为二项分布二项分布检验就是根据收集到的样本数据推断总体分布是否服从某个指定的二项分布零假设样本来自的总体与所指定的某个二项分布不存在显著差异适用在样本小于或等于时按照计算二项分布概率的公式进行计算样本大于时计算的是统计认为在零假设下统计量服从正态分布二项分布检验的数据是实际收集到的样本数据而非频数数据单样本变量值随机性检验也成为游程过程检验是对某变量的取值出现是否随机进行检验零假设总体某变量的变量值出现的变量值的次数单样本变量值的随机性检验通过游程数来实现所谓游程是样本序列中连续出现的变量值的次数在单样本变量值的随机性检验中将利用游程构造统计量并依据正态分布表给出对应的相伴概率值单样本检验是由提出的是一种拟合优度的非参数检验方法是利用样本数据推断总体是否服从某一理论分布的方法适用于探索连续型随机变量的分布形态零假设样本来自的总体于指定的理论无显著差异实现检验的过程根据样本数据和用户的指定构造出理论分布查分布表得到相应的理论累积概率分布函数利用样本数据计算个样本数据点的累计概率得到检验累计概率分布函数计算和在相应的变量值点上的差得到差值序列单样本检验主要对差值序列进行研究两独立样本非参数检验是在对总体分布不很了解的情况下通过分析样本数据推断样本来自的两个独立总体分布是否存在显著差异一般用来对两个独立样本的均数中位数离散趋势偏度等进行差异比较检验种方法两独立样本的检验主要用于判断两个独立样本所属的总体均值是否有相同两独立样本的检验推测两个独立样本是否来自具有相同分布的总体两独立样本的游程检验考察两个独立样本是否来自具有相同分布的总体两独立样本的极端反应检验检验两个独立样本之观察值的散步范围是否有差异存在以检验两个样本是否来自具有同一分布的总体多独立样本非参数检验是推断样本来自的多个独立总体分布是否存在显著差异一般推断多个独立样本总体的均值或中位数是否存在显著差异中方法多独立样本的中位数检验检验多个样本是否来自具有相同中位数的总体多独立样本的检验检验多个样本在总体分布是否有差异多独立样本的检验通过计算一个样本中观测值小于另一个样本观测值的个数来判断比检验出现第二类错误概率更小两配对样本非参数检验是对总体分布不很清楚的情况下对样本来自的两相关配对总体分别进行检验一般用于同一研究对象分别给予两种不同处理的效果比较以及同一研究对象处理前后的效果比较前者推断两种效果有无差别后者推断某种处理是否有效前提是两个样本应是配对的种方法两配对样本的变化显著性检验两配对样本的符号检验两配对样本的符号平均秩检验多配对样本非参数检验是对多个匹配样本的总体分布是否存在显著性差异进行统计分析种方法多配对样本的检验多配对样本的协同系数检验多配对样本的检验