概率统计简单随机抽样一全面调查与抽样调查全面调查定义对每一个调查对象都进行调查的方法成为全面调查又称普查在一个调查中我们把调查对象的全体称为成为总体组成总体的每一个调查对象称为个体优点和缺点优点是所有资料较为全面可靠缺点是调查花费的人力物力财力较多且调查时间较长全面调查只在样本少的情况下适合采用抽样调查定义根据一定目的从总体中抽取一部分个体进行调查并以此为依据对总体的情况作出估计和推断的调查方法称为抽样调查相关的概念总体所要考察对象的全体叫做总体样本从总体中抽取出的若干个个体组成的集合叫作总体的一个样本个体总体中的每一个考察对象叫作个体样本容量样本中个体的数目叫作样本容量样本数据调查样本获得的变量值称为样本的观测数据简称样本数据优点和缺点优点是迅速及时节约人力物力和财力缺点是调查结果不如全面调查全面系统二简单随机抽样放回简单随机抽样一般地设一个总体含有为正整数个个体从中逐个抽取个个体作为样本如果抽取是放回的且每次抽取时总体内的各个个体被抽到的概率都相等我们把这样的抽样方法叫做放回简单随机抽样不放回简单随机抽样如果抽取是不放回的且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等我们把这样的抽样方法叫做不放回简单随机抽样简单随机抽样与简单随机样本放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样通过简单随机抽样获得的样本成为简单随机样本简单随机抽样的特点总体个数有限简单随机抽样要求被抽取样本的总体个数有限这样便于通过样本对总体进行分析逐个抽取简单随机抽验是从总体中种逐个进行抽取这样便于实际操作不放回抽样简单随机抽样是一种不放回抽样这样便于样本的获取和一些相关的计算等可能抽样不仅每次从总体中抽取一个个体时各个个体被抽到的可能性相等而且在整个抽样过程中各个个体被抽到的可能性也相等从而保证了这种抽样方法的公平性常用的简单随机抽样有抽签法和随机数表法三抽签法与随机数法抽签法定义把总体中的个个体编号把号码写在号签上将号签放在一个容器中搅拌均匀后每次从中抽取一个号签连续抽取次就得到一个样本容量为的样本抽签法的操作步骤第一步编号将个个体编号号码可以从到也可以使用已有的号码第二步写签将个号码写到大小形状相同的号签上第三步抽签将号签搅拌均匀每次从中抽取一个号签连续不放回地抽取次并记录其编号第四部定样从总体中找出与号签上的号码对应的个体组成样本抽签法的注意事项对个体编号时也可以利用已有的编号制作号签时所使用的工具如纸条小球等的形状大小要一样以确保每个号签被抽到的可能性相等抽取样本前总体要均匀搅拌目的是让每个号签被抽到的机会相等优点与缺点优点简单易形当总体的个体数不多时使总体处于搅拌均匀的状态比较容易此时每个个体都有均等的机会被抽中从而能够保证样本的代表性缺点仅适用于个体数较少的总体当总体的容量较大时费时费力又不方便况且如果号签搅拌的不均匀可能导致抽样不公平随机数法定义简单随机抽样中另一个经常被采用的方法是随机数表法即利用随机试验或信息技术即计算器电子表格软件和统计软件生成的随机数进行抽样随机数表法步骤把总体中的每个个体编号用随机数工具产生编号范围内的整数随机数把产生的随机数作为抽中的编号使与编号对应的个体进入样本重复上述过程知道抽足样本所需要的数量注意如果产生的随机数有重复即同一编号被多次抽到可以剔除重复的编号并重新产生随机数知道产生的不同标号个数等于样本所需要的数量优点和缺点优点操作简单易行它很好地解决了用抽签法当总总体中的个数较多时制签难的问题在总体容量不大的情况下是行之有效的缺点总体中的个数很多对个体编号的工作量太大即使用随机数表法操作也不方便快捷抽签法与随机数法的比较相同点抽签法与随机数法都是简单随机抽样并且要求被抽取样本的总体的个数有限抽签法与随机数法都是从总体中逐个进行抽取都是不放回抽样不同点抽签法适用于总体个数较少的情况随机数法适用于总体个数较多的情形四简单随机抽样中的两类特征数总体平均数一般地总体中有个个体它们的变量值分别为则称为总体均值又称总体平均数如果总体的个变量值中不同的值共有个不妨记为其中出现的频数则总体均值还可以写成加权平均数的形式样本平均数如果从总体中抽取一个容量为的样本它们的变量值分别为则称为样本均值又称样本平均数在简单随机抽样中我们常用样本平均数去估计总体平均数分层抽样和获取数据的途经一分层随机抽样的概念分层随机抽样的定义一般地按一个或多个变量把总体划分成若干个子总体每个个体属于且仅属于一个子总体在每个子总体中独立地进行简单随机抽样再把所有子总体中抽取的样本合在一起作为总样本这样的抽样方法称为分层随机抽样每一个子总体称为层比例分配在分层随机抽样中如果每层样本量都与层的大小成比例那么称这种样本量的分配方式为比例分配分层随机抽样使用的原则将相似的个体归入一类即为一层分层要求每层的各个个体互不交叉即遵循不重复不遗漏的原则分层随机抽样为保证每个个体等可能入样需遵循在各层中进行简单随机抽样每层样本数量与每层个体数量的比等于抽样比分层随机抽样的步骤分层按某种特征将总体分成若干部分层计算抽样比抽样比样本容量总体容量定数按抽样比确定每层抽取的个体数抽样每层分贝按简单随机抽样的方法抽取样本成样综合各层抽样组成样本分层随机抽样的相关计算关系样本容量总体的个数该层抽取的个体数该层的个体数总体中某两层的个体数之比等于样本中这两层抽取的个体数之比样本的平均数和各层的样本平均数的关系为二获取数据的基本途径选择获取数据的途径主要是根据所要研究问题的类型以及获取数据的难易程度有的数据可以有多种获取途径有的数据只能通过一种途径获取选择合适的方法和途径能够更好地提高数据的可靠性通过调查获取数据使用类型对于有限总体问题我们一般通过抽样调查或普查的方法获取数据注意问题要充分有效地利用背景信息选择或创建更好的抽样方法并有效地避免抽样过程中的人为错误通过试验获取数据适用类型没有现存的数据可以查询注意问题严格控制实验环境通过精心的设计安排试验以提高数据质量通过观察获取数据适用类型自然现象注意问题要通过长久的持续观察获取数据通过查询获得数据适用类型众多专家研究过其收集的数据有所存储注意问题必须根据问题背景知识清洗数据去伪存真样本估计总体一频率分布直方图频率分布直方图列出样本数据的频率分布表和频率分布直方图的步骤计算极差找出数据的最大值与最小值计算它们的差决定组距与组数当样本容量不超过时按照数据的多少分成组且将数据分组通常对组内数值所在区间区左闭右开区间最后一组取闭区间也可以将样本数据多取一位小数分组列频率分布表对落入各小组的数据累计算出各小数的频数除以样本容量得到各小组的频率绘制频率分布直方图以数据的值为横坐标以的值为纵坐标绘制直方图频率分布直方图的特点个小长方形的面积等于频率分布折线图将频率分布直方图各个长方形上边的中点用线段连接起来就得到频率分布折线图一般把折线图画成与横轴相连所以横轴左右两端点没有实际意义总体密度曲线样本容量不断增大时所分组数不断增加分组的组距不断缩小频率分布直方图可以用一条光滑曲线来描绘这条光滑曲线就叫做总体密度曲线总体密度曲线精确地反映了一个总体在各个区域内取值的规律根据频率分布直方图求平均数中位数和众数众数中位数平均数与频率分布直方图的关系平均数在频率分布直方图中样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替中位数在频率分布直方图中中位数左边和右边的直方图的面积应该相等众数众数是最高小矩形底边的中点所对应的数据二百分位数的计算第百分位数的定义一般地一组数据的第百分位数是这样一个值它使得这组数据中至少有的数据小于或等于这个值且至少有的数据大于或等于这个值计算一组个数据的第百分位数的步骤第步按从小到大排列原始数据第步计算第步若不是整数而大于的比邻整数为则第百分位数为第项数据若是整数则第百分位数为第项与第项数据的平均数三样本估计总体用样本的平均数估计总体平均数众数在样本数据中出现次数最多的那个数据中位数将样本数据按大小顺序排列若数据的个数为奇数则最中间的数据为中位数若样本数据个数为偶数则取中间两个数据的平均数作为中位数平均数设样本的数据为则样本的算术平均数为众数中位数和平均数的比较名称优点缺点平均数与中位数相比平均数反映出样本数据中更多的信息对样本中的极端值更加敏感任何一个数据的改变都会引起平均数的改变数据越离群对平均数的影响越大中位数不受少数几个极端数据即排序靠前或靠后的数据的影响对极端值不敏感众数体现了样本数据的最大集中点众数只能传递数据中的信息的很少一部分对极端值不敏感平均数相关结论如果两组数和的平均数分别是和则一组数的平均数是如果一组数的平均数为则一组数的平均数为如果一组数的平均数为则一组数的平均数为根据频率分布直方图求平均数中位数和众数平均数在频率分布直方图中样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替中位数在频率分布直方图中中位数左边和右边的直方图的面积应该相等众数众数是最高小矩形底边的中点所对应的数据四总体离散程度的估计方差标准差用样本的标准差估计总体的标准差数据的离散程度可以用极差方差或标准差来描述极差又叫全距是一组数据的最大值和最小值之差反映一组数据的变动幅度样本方差描述了一组数据围绕平均数波动的大小一般地设样本的数据为样本的平均数为定义样本方差为简化公式方差等于原数据平方的平均数减去平均数平均数的平方样本的标准差是方差的算术平方根样本标准差标准差越大数据离散程度越大数据家分散标准差越小数据集中在平均数周围方差相关结论如果一组数的方差为则一组数的方差为如果一组数的方差为则一组数的方差为随机事件与概率一有限样本空间随机试验我们把对随机现象的实现和对它的观察称为随机试验特点试验可以在相同条件下重复进行试验的所有可能结果都是明确可知的并且不止一个每次试验总是恰好出现这些可能结果中的一个但事先不能确定出现哪一个结果样本点和样本空间样本点我们把随机试验的每个可能的基本结果称为样本点用表示样本点样本空间全体样本点的集合称为试验的样本空间用表示样本空间有限样本空间如果一个随机试验有个可能结果则称样本空间为有限样本空间样本空间中样本点的求法列举法也称枚举法对于一些情境比较简单样本点个数不是很多的概率问题计算时只需要一一列举即可得出随机事件所包含的言本店注意列举时必须按一定的顺序做到不重不漏列表法碎玉样本点个数不是太多的情况可以采用列表法通常把对问题的思考分析归结为有序实数对以便更直接地得到样本点个数列表法的有点是准确全面不易遗漏期中最常用的方法是坐标系法树状图法树状图适用于按一顺序排雷的较复杂问题中言本店个数的求解是一种常用的方法二三种事件的定义随机事件我们将样本空间的子集称为随机事件简称事件并把只包含一个样本点的事件称为基本事件随机事件一般用大写字母表示在每次试验中当且仅当中某个样本点出现时称为事件发生必然事件作为自身的子集包含了所有的样本点在每次试验中总有一个样本点发生所以总会发生我们称为必然事件不可能事件空集不包含任何样本点在每次试验中都不会发生我们称为不可能事件注意判断一个事件是哪类事件要看两点一看条件因为三种事件都是相对于一定条件而言的二看结果是否发生一定发生的是必然事件不一定发生的是随机事件一定不发生的是不可能事件三事件的关系判断互斥互不相容一般地如果事件与事件不能同时发生也就是说是一个不可能事件即则称事件与事件互斥或互不相容互为对立一般地如果事件与事件在任何一次试验中有且仅有一个发生即且那么称事件与事件互为对立事件的对立事件记为四事件的运算包含关系一般地若事件发生则事件一定发生我们就称事件包含事件或事件包含于事件即或特殊情形如果事件包含事件事件也包含事件即且则称事件与事件相等记作并事件和事件一般地事件与事件至少有一个发生这样的事件中的样本点或者在事件中或者在事件中则称这个事件为事件与事件的并事件或和事件或交事件积事件一般地事件与事件同时发生这样的一个事件中的样本点既在事件中也在事件中则称这样的事件为事件与事件的交事件或积事件或五古典概型的判断古典概型的定义我们将具有以下两个特征的试验称为古典概型试验其数学模型称为古典概率模型简称古典概型有限性样本空间的样本点只有有限个等可能性每个样本点发生的可能性相等古典概型的概率计算公式一般地设试验是古典概型样本空间包含个样本点事件包含其中个样本点则定义事件的概率其中和分别表示事件和样本空间包含的样本点个数六概率的基本性质性质对任意的事件都有性质必然事件的概率为不可能事件的概率为即性质如果事件与事件互斥那么性质如果事件与事件互为对立事件那么性质如果那么性质设是一个随机试验中的两个事件我们有事件的相互独立性一相互独立事件定义对任意两个事件与如果成立则称事件与事件相互独立简称为独立判断事件是否相互独立的方法定义法若事件的发生对事件的发生概率没有影响反之亦然则这两个事件是相互独立的公式法若对两事件有则事件相互独立用相互独立事件的乘法公式解题的步骤用恰当的字母表示题中有关事件根据题设条件分析事件间的关系将需要计算概率的事件表示为所设事件的乘积或若干个事件的乘积之和相互乘积的事件之间必须满足相互独立利用乘法公式计算概率二相互独立事件的概率计算公式已知两个事件相互独立它们的概率分别为则有事件表示概率同时发生都不发生恰有一个发生中至少有一个发生中至多有一个发生频率与概率一频率与概率频率的稳定性大量的试验证明在任何确定次数的随机试验中一个随机事件发生的频率具有随机性一般地随着试验次数的增大频率偏离概率的幅度会缩小即事件发生的频率会逐渐稳定于事件发生的概率我们称频率的这个性质为频率的稳定性因此我们可以用频率估计概率频率的求法频率是事件发生的次数与试验总次数的比值利用此公式可求出它们的频率频率本身是随机变量当很大时频率总是在一个稳定值附近摆动这个稳定值就是概率频率和概率区别和联系区别在相同的条件下重复次试验观察某一事件是否出现称次试验中事件出现的次数为事件出现的频数称事件出现的比例为事件出现的频率概率是度量随机事件发生的可能性大小的量频率是一个变量随着试验次数的变化而变化概率是一个定值是某事件的固有属性联系对于给定的随机事件由于事件发生的频率随着试验次数的增加稳定于概率因此可以用频率来估计概率二游戏公平性的标准及判断方法游戏规则是否公平要看对游戏的双方来说获胜的可能性或概率是否相同若相同则规则公平否则就是不公平的具体判断时可以求出按所给规则双方的获胜概率再进行比较三随机数的产生及模拟应用随机数的产生标号把个大小形状相同的小球分别标上搅拌放入一个袋中把它们充分搅拌摸取从中摸出一个这个球上的数就称为从之间的随机整数简称随机数伪随机数的产生规则依照确定的算法特点具有周期性周期很长性质它们具有类似随机数的性质计算机或计算器产生的随机数并不是真正的随机数我们称为伪随机数产生随机数的常用方法用计算器产生用计算机产生抽签法随机模拟方法蒙特卡洛方法利用计算机或计算器产生的随机数来做模拟试验通过模拟试验得到的频率来估计概率这种用计算机或计算器模拟试验的方法称为随机模拟方法或蒙特卡洛方法随机数产生的方法比较方法抽签法用计算器或计算机产生优点保证机会均等操作简单省时省力缺点耗费大量人力物力时间或不具有实际操作性由于是伪随机数故不能保证完全等可能统计专题统计图表的应用频率分布直方图列出样本数据的频率分布表和频率分布直方图的步骤计算极差找出数据的最大值与最小值计算它们的差决定组距与组数当样本容量不超过时按照数据的多少分成组且将数据分组通常对组内数值所在区间区左闭右开区间最后一组取闭区间也可以将样本数据多取一位小数分组列频率分布表对落入各小组的数据累计算出各小数的频数除以样本容量得到各小组的频率绘制频率分布直方图以数据的值为横坐标以的值为纵坐标绘制直方图频率分布直方图的特点各个小长方形的面积等于条形图在直角坐标系中用横轴横轴上的数字表示样本数据类型用纵轴上的单位长度表示一定的数量根据每个样本或某个范围内的样本的数量多少画出长短不同的等宽矩形然后把这些矩形按照一定的顺序排列起来这样一种表达和分析数据的统计图称为条形图折线图在直角坐标系中用横轴上的数字表示样本值用纵轴上的单位长度表示一定的数量根据样本值和数量的多少描出相应的各点然后把各点用线段顺次连接得到一条折线用这种折线表示出样本数据的情况这样的一种表示和分析数据的统计图称为折线图扇形图用一个圆表示整体圆中各扇形分别代表总体中的不同部分每个扇形的大小反映所表示的那部分占总体的百分比的大小这样一种表示和分析数据的统计图称为扇形图