4、了解线性回归的方法,会求线性回归方程。
3、正态分布的意义、主要性质及应用;
2、用样本的频率去估计总体分布;
1、理解三种抽样方法的特点;
例1:某批零件共160个,其中一级品有48个,二级品64个,三级品32个,等外品16个.从中抽取一个容量为20的样本.请说明分别用简单随机抽样、系统抽样、分层抽样法抽取时总体中的每个个体被取到的概率相同.
解:(1)简单随机抽样法:可采用抽签法,将160个零件按1-160编号,相应地制做1-160号的160个签,从中随机抽20个。显然每个个体被抽到的概率为 。
(2)系统抽样法:将160个零件按1-160编号,按编号顺序分成20组,每组8个。先在第一组用抽签法抽得 号 ,则在其余组中分别抽得第 号,此时每个个体被抽到的概率为 。
(3)分层抽样法:按比例 ,分别在一级品,二级品,三级品,等外品,是抽取 个, 个, 个, 个。每个个体被抽到的概率分别为 , , , ,即都是 。
综上所述,无论采取哪种抽样,总体和每个个体被抽到的概率都是 。
说明:三种抽样方法的共同点就是每个个体被抽到的概率相同,这样样本的抽取体现了公平性和客观性。
例2:将温度调节器放置在贮存着某种液体的容器内,调节器设定在 ,液体的温度 (单位: )是一个随机变量,且 。
(1) 若 ,求 的概率
(2) 若要保持液体的温度至少为 的概率不低于0.99,问 至少是多少?(其中若 )。
剖析:(1)要求P( )=F(89),因为 不是标准正态分布,而给出的是 ,故需转化为标准正态分布的数值。
(2)转化为标准正态分布下的数值求概率 ,再利用
解:(1)
(2)由已知 满足
说明:(1)若
(2)标准正态分布的密度函数 是偶函数, 时, 为增函数, 时, 为减函数。
例3:已知测量误差 ,必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过 的频率大于0.9?
解:设 表示 次测量中绝对误差不超过 的次数,则 其中
由题意,
,
因此,至少要进行3次测量,才能使至少有一次误差的绝对值不超过 的概率大于0.9。
例4:有一个容量为100的样本,数据的分组及各组的频数如下:
(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)估计数据小于30.5的概率。
解:(1)样本的频率分布如下:
分组 |
频数 |
频率 |
12.5~15.5 |
6 |
0.06 |
15.5~18.5 |
16 |
0.16 |
18.5~21.5 |
18 |
0.18 |
21.5~24.5 |
22 |
0.22 |
24.5~27.5 |
20 |
0.20 |
27.5~30.5 |
10 |
0.10 |
30.5~33.5 |
8 |
0.08 |
合计 |
100 |
1.00 |
(2)频率分布直方图如图
(3)数据大于等于30.5的频率是0.08,所以,小于30.5的频率是0.92. 所以,小于30.5的概率约是0.92.
例5:一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:
x |
1.08 |
1.12 |
1.19 |
1.28 |
1.36 |
1.48 |
1.59 |
1.68 |
1.80 |
1.87 |
1.98 |
2.07 |
y |
2.25 |
2.37 |
2.40 |
2.55 |
2.64 |
2.75 |
2.92 |
3.03 |
3.14 |
3.26 |
3.36 |
3.50 |
(1) 画出散点图
(2) 求月成本与月产量之间的回归直线方程。
解:(1)画出散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
xi |
1.08 |
1.12 |
1.19 |
1.28 |
1.36 |
1.48 |
1.59 |
1.68 |
1.80 |
1.87 |
1.98 |
2.07 |
yi |
2.25 |
2.37 |
2.40 |
2.55 |
2.64 |
2.75 |
2.92 |
3.03 |
3.14 |
3.26 |
3.36 |
3.50 |
xiyi |
2.43 |
2.654 |
2.856 |
3.264 |
3.590 |
4.07 |
4.643 |
5.090 |
5.652 |
6.096 |
6653 |
7.245 |
,
,
,
|
于是由公式可得: ,
因此所求的回归直线方程是
说明:求线性回归直线方程的步骤:
(1)画散点图观察相关性(2)列出表格,求出某些数据(3)代入公式求得a,b,进而得到直线方程。
4、线性回归:
(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。注:与函数关系不同,相关关系是一种非确定性关系。
(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。
(3)散点图:表示具有相关关系的两个变量的一组数据的图形。
(4)回归直线方程: ,其中 , 。相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。
(5)相关系数:
相关系数的性质:
(1)|r|≤1。
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
3、正态分布的概念及主要性质:
①正态分布的概念:如果连续型随机变量ξ的概率密度曲线为 ,其中 为常数,并且 ,则称ξ服从正态分布,简记为 。
②正态分布的期望与方差:若 ,则 。
③正态分布的主要性质:Ⅰ)曲线在x轴上方,并且关于直线x=μ对称;Ⅱ)曲线在x=μ时处于最高点,由这一点向左右延伸时,曲线逐渐降低;Ⅲ)曲线的对称轴位置由μ确定;曲线的形状由σ确定,σ越大,曲线越:“矮胖”;反之曲线越“高瘦”。
④标准正态分布:当μ=0,σ=1时, 可以写成 ,这时称ξ服从标准正态分布,简记为 。
⑤标准正态分布的函数表:
由于标准正态分布应用十分广泛,已制成专门的标准正态函数表,供人们查阅。在标准正态分布表中,相应于每一个 的函数值Φ 是指总体取小于 的值的概率(函数Φ 实际上是正态总体N(0,1)的累积分布函数),即Φ = 。 φ
⑥若 ,则① ,②
2、总体分布的估计:随着试验次数的不断增加,试验结果的频率值在相应的概率值附近摆动.当试验次数无限增大时,频率值就变成相应的概率了.此时随着样本容量无限增大其频率分布也就会排除抽样误差,精确地反映总体取的概率分布规律,通常称为总体分布.
用样本的频率分布去估计总体分布:由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体分布,一般地,样本容量越大,估计越精确.
总体分布的估计的两种方式(1)频率分布表 (2)频率分布直方图。
1.三种常用抽样方法:
(1)简单随机抽样:设一个总体的个数为N。如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。
简单随机抽样的常用方法:①抽签法,②随机数表法
用随机数表进行抽样的步骤:①将总体中的个体编号;②选定开始号码;③获取样本号码。
(2)系统抽样(也称为机械抽样):当总体的个数较多时,采用简单随机抽样较为费事。这时可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。
系统抽样的步骤:①采用随机的方式将总体中的个体编号;②整个的编号分段(即分成几个部分),要确定分段的间隔k。当N/n(N为总体中的个体的个数,n为样本容量)是整数时,k=N/n;当N/n不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数N‘能被n整除,这时k=N′/n;③在第一段用简单随机抽样确定起始的个体编号1;④按照事先确定的规则抽取样本(通常是将1加上间隔k得到第2个编号1+k,第3个编号1+2k,这样继续下去,直到获取整个样本)。
(3)分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。
三种抽样方法的比较
类别 |
共同点 |
各自特点 |
相互联系 |
适用范围 |
简单随机抽样 |
抽样过程中每个个体被抽取的概率相等 |
从总体中逐个抽取 |
|
总体中的个数较少 |
系统抽样 |
将总体均分成几部分,按事先确定的规则分别在各部分中抽取 |
在起始部分抽样时采用简单随机抽样 |
总体中的个数较多 |
|
分层抽样 |
将总体分成几层,分层进行抽取 |
各层抽样时采用简单随机抽样或系统抽样 |
总体由差异明显的几部分组成 |
2、 常生产生活中的一些问题,我们可以转化为数学问题,借助于函数、方程、不等式、概率、统计等知识解决。同时,要提高分析问题和解决问题的能力,必须关注生产和生活。
湖北省互联网违法和不良信息举报平台 | 网上有害信息举报专区 | 电信诈骗举报专区 | 涉历史虚无主义有害信息举报专区 | 涉企侵权举报专区
违法和不良信息举报电话:027-86699610 举报邮箱:58377363@163.com