1、 事件分为确定事件(包括必然事件与不可能事件)与随机事件。随机事件发生的可能性的大小用概率来度量。在n次试验中,事件A发生的次数称为事件A发生的频数。称为事件A发生的频率。随着试验次数的增加,频率稳定在某个常数上,这个常数称为事件A发生的概率。频率是变化的与试验次数有关,概率是不变的,与试验次数无关。频率是概率的近似值。
8、 相关关系:与函数关系(确定关系)不同,相关关系是一种不确定性关系。从散点图上看,如果散点分布在从左下角到右上角的区域内,这两个变量的相关关系称为正相关,如果散点分布在从左上角到右下角的区域内,这两个变量的相关关系称为负相关。如果这些点从整体上看大致分布在一条直线的附近,则称这两个变量具有线性相关,这条直线叫回归直线。回归直线是:
线性相关系数:
第十三讲概率
7、 标准差、极差、方差都是描述数据的波动大小。前两者与数据的单位一致,方差与数据的单位不一致。
方差的计算公式是:
练习:
6、 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数。中位数可能会不是数据中的数。众数是指在一组数据中出现次数最多的数据,可能不只一个。在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。
5、 茎叶图不仅能保留原始数据而且方便对数据的记录和表示。但如果数据较多,茎叶图就显得不方便。
茎是指中间的一列数,叶是从茎的旁边生长出来的数。
4、 连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图,随着样本容量的增加,分组组距的不断缩小,相应的频率折线图会越来越接近于一条光滑曲线,统计学中称这条光滑曲线为总体密度曲线。总体密度曲线反映了总体在各个范围内取值的百分比。总体在某一区间内取值的百分比就是该区间与该曲线所夹的曲边梯形的面积。总体密度曲线通常是用样本的频率分布估计出来的。这是因为:(1)并非所有的总体都存在密度曲线,如一些离散型总体没有。(2)尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样被准确地画出来,只能用样本的频率分布来对它估计。样本容量越大,这种估计越精确。
3、 列频率分布表、画频率分布直方图的步骤:(1)求极差(最大值与最小值之差),(2)决定组距与组数,(3)将数据分组,(4)列频率分布表,(5)绘频率分布直方图。在频率分布直方图中,纵轴表示频率/组距,横轴表示样本数据,各小长方形的面积表示相应各组的频率,各小长方形的面积的总和为1。直率分布直方图的重心就是样本平均数。
2、 按某顺序以一定的间隔进行抽取得到的样本叫系统抽样。将总体分成互不交叉的层,然后按一定比例抽取一定数量的个体,将各层取出的个体放在一起作为样本,这种方法叫分层抽样。系统抽样的特点是:总体容量大且个体之间无差异。分层抽样的特点是:总体容量大且个体之间差异大。
1、 简单随机抽样:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,这种抽样的方法就叫简单随机抽样。最常用的简单随机抽样的方法有:抽签法与随机数表法。抽签法的优点是简单易行。但是当容量非常大时,费时费力不方便,可能导致抽样的不公平。随机数表法是由0,1,2,3,4,,5,6,7,8,9这10个数字组成的数表,并且表中的每一位置出现各个数字的可能性相等。用随机数表法时先对总体内的各个个体编号,再从数表中的某个数开始按一定顺序(可以向左、右、上、下)读数,取出适合的号码,直到取够样本为止。优点节省人力、物力、财力和时间,缺点是所产生的样本不是真正的简单样本。
9、“满k进一”就是k进制,k进制的基数是k。将k进制化为十进制的方法是:先把k进制数写成用各位上的数字与k的幂的乘积的形式,再按照十进制的运算规则计算出结果。将十进制数化为k进制数的方法是:除k取余法。即用k连续去十进制所得的商,直到商为零止,然后把所得的余数倒着写出就是所得的k进制。
第十二讲统计
湖北省互联网违法和不良信息举报平台 | 网上有害信息举报专区 | 电信诈骗举报专区 | 涉历史虚无主义有害信息举报专区 | 涉企侵权举报专区
违法和不良信息举报电话:027-86699610 举报邮箱:58377363@163.com