2.对卡方统计量的表达式的由来,学生只需要了解,作为探究问题可以在课后学习。
统计的基本思维模式是归纳的,它的特征之一是通过部分数据来推测全体数据的性质,因此,统计推断可能是错误的,也就是说,我们从数据上体现的只是统计上的关系,而不是因果关系。
1.一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验.在确认其具有线性相关关系后,再求其回归直线方程;由部分数据得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性的相关关系问题转化成确定性的函数关系问题进行研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用。
题型1:线性相关性检验
例1.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:
x |
1.08 |
1.12 |
1.19 |
1.28 |
1.36 |
1.48 |
1.59 |
1.68 |
1.80 |
1.87 |
1.98 |
2.07 |
|
y |
2.25 |
2.37 |
2.40 |
2.55 |
2.64 |
2.75 |
2.92 |
3.03 |
3.14 |
3.26 |
3.36 |
3.50 |
|
1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程.
解析:
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
xi |
1.08 |
1.12 |
1.19 |
1.28 |
1.36 |
1.48 |
1.59 |
1.68 |
1.80 |
1.87 |
1.98 |
2.07 |
yi |
2.25 |
2.37 |
2.40 |
2.55 |
2.64 |
2.75 |
2.92 |
3.03 |
3.14 |
3.26 |
3.36 |
3.50 |
xiyi |
2.43 |
2.264 |
2.856 |
3.264 |
3.590 |
4.07 |
4.643 |
5.090 |
5.652 |
6.096 |
6.653 |
7.245 |
=,==2.8475,=29.808,=99.2081,=54.243 |
1)画出散点图:
2)
r=
=
在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r0.05=0.576<0.997891, 这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系。
3)设回归直线方程,
利用
,
计算a,b,得b≈1.215, a=≈0.974,
∴回归直线方程为:
例2.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得数据如下(单位:kg)
施化肥量x |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
水稻产量y |
330 |
345 |
365 |
405 |
445 |
450 |
455 |
1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程。
解析:1)画出散点图如下:
2)检验相关系数r的显著性水平:
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
xi |
15 |
20 |
25 |
30 |
35 |
40 |
45 |
yi |
330 |
345 |
365 |
405 |
445 |
450 |
455 |
xiyi |
4950 |
6950 |
9125 |
12150 |
15575 |
18000 |
20475 |
=30,=399.3,=7000,=1132725,=87175 |
r==≈0.9733,在“相关系数检验的临界值表”查出与显著性水平0.05及自由度7-2=5相应的相关数临界值r0.05=0.754<0.9733,这说明水稻产量与施化肥量之间存在线性相关关系。
3)设回归直线方程,利用
计算a,b, 得b=
a=399.3-4.75×30≈257,则回归直线方程
题型2:独立性检验
例3.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
|
患慢性气管炎 |
未患慢性气管炎 |
合计 |
吸烟 |
43 |
162 |
205 |
不吸烟 |
13 |
121 |
134 |
合计 |
56 |
283 |
339 |
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
解析:由公式,因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
例4.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
|
又发作过心脏病 |
未发作过心脏病 |
合计 |
心脏搭桥手术 |
39 |
157 |
196 |
血管清障手术 |
29 |
167 |
196 |
合计 |
68 |
324 |
392 |
试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。
解析:由公式,因为1.78>3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作与否与其做过任何手术无关。
题型3:独立的概念及应用
例5.(2003,江苏、河南,12分)有三种产品,合格率分别是0.90,0.95和0.95,各抽取一件进行检验。
(1)求恰有一件不合格的概率;
(2)求至少有两件不合格的概率(精确到0.001);
解析:设三种产品各抽取一件,抽到合格产品的事件分别为A、B和C,
(1)P(A)=0.90,P(B)=P(C)=0.95,则P()=0.10,P()=P()=0.05。
因为事件A、B、C相互独立,恰有一件不合格的概率为:
P(A·B·)+P(A··C)+P(·B·C)
=P(A)·P(B)·P()+P(A)·P()·P(C)+P()·P(B)·P(C)
=2×0.90×0.95×0.05+0.10×0.95×0.95≈0.176
答:恰有一件不合格的概率为0.176.
(2)解法一:至少有两件不合格的概率为:
P(A··)+P(·B·)+P(··C)+P(··)
=0.90×0.05×0.05+2×0.10×0.05×0.95+0.10×0.05×0.05≈0.012.
答:至少有两件不合格的概率为0.012.
解法二:三件产品都合格的概率为:
P(A·B·C)=P(A)·P(B)·P(C)=0.90×0.95×0.95≈0.812.
由(1)知,恰有一件不合格的概率为0.176,所以,至少有两件不合格的概率为1-[P(A·B·C)+0.176]=1-(0.812+0.176)=0.012.
答:至少有两件不合格的概率为0.012.
点评:本题主要考查互斥事件有一个发生的概率和相互独立事件概率的计算及运用数学知识解决问题的能力。
例6.(06北京卷)某公司招聘员工,指定三门考试课程,有两种考试方案。
方案一:考试三门课程,至少有两门及格为考试通过;
方案二:在三门课程中,随机选取两门,这两门都及格为考试通过.
假设某应聘者对三门指定课程考试及格的概率分别是,且三门课程考试是否及格相互之间没有影响.
(Ⅰ)分别求该应聘者用方案一和方案二时考试通过的概率;
(Ⅱ)试比较该应聘者在上述两种方案下考试通过的概率的大小.(说明理由)
解析:设三门考试课程考试通过的事件分别为A,B,C,相应的概率为a,b,c
(1)考试三门课程,至少有两门及格的事件可表示为AB+AC+BC+ABC,设其概率为P1,则P1=ab(1-c)+a(1-b)c+(1-a)bc+abc=ab+ac+bc-2abc
设在三门课程中,随机选取两门,这两门都及格的概率为P2,则P2=ab+ac+bc
(2)P1-P2=(ab+ac+bc-2abc)-(ab+ac+bc)=ab+ac+bc-2abc=(ab+ac+bc-3abc)=(ab(1-c)+ac(1-b)+bc(1-a))>0
\P1>P2即用方案一的概率大于用方案二的概率。
点评:“至少、至多”问题的处理方式是分类到底,利用独立、互斥或对立事件进行转化。
题型4:随机变量的分布列
例7.(06广东卷).某运动员射击一次所得环数的分布如下:
|
6 |
7 |
8 |
9 |
10 |
|
0 |
|
|
|
|
现进行两次射击,以该运动员两次射击中最高环数作为他的成绩,记为.
(I)求该运动员两次都命中7环的概率
(II)求的分布列
解析:(Ⅰ)求该运动员两次都命中7环的概率为;
(Ⅱ)的可能取值为7、8、9、10
;
,
,
,
分布列为:
|
7 |
8 |
9 |
10 |
P |
0.04 |
0.21 |
0.39 |
0.36 |
(Ⅲ) 的数学希望为。
点评:分布列不仅明确给出了()的概率,而且对任事件()发生的概率均可由分布列算出: 。
例8.设自动生产线在调整后出现废品的概率为0.1,而且一旦出现废品就要重新调整,求在两次调整之间所生产的合格品的数目不小于5的概率。
分析:如果用随机变量η表示两次调整之间生产的产品的个数,而且我们知道一旦出现废品就重新调整生产线,所以两次调整之间所生产的合格品是连续出现的,那么随机变量η的取值就服从几何分布,我们在解题时应先求出η的分布列。然后再计算事件“合格品数不小于5”即{η>5}的概率。
解析:设随机变量η表示两次调整之间生产线所生产的产品的个数,则η服从几何分布,事件{η=k}就表示生产了k-1件合格品,且第k件产品是废品。容易求得:
P(η=1)=0.1,
P(η=2)=(1-0.1)×0.1=0.09,
写成分布列的形式为:
|
1 |
2 |
3 |
4 |
5 |
6 |
… |
P |
0.1 |
0.09 |
0.81 |
0.0729 |
0.06561 |
0.059049 |
… |
题目中要求计算“所生产的合格品数不小于5”的概率,即P(η>5),因为事件{η>5}所包含的基本事件为{η=6},{η=7},…,{η=n},…,所以有
P(η>5)=P(η=6)+P(η=7)+…+P(η=n)+…
我们应用分布列的性质计算上式的值.因为P(η>5)=1-P(η≤5),所以
P(η>5)=1-[P(η=1)+P(η=2)+P(η=3)+P(η=4)+P(η=5)]
=1-(0.1+0.09+0.081+0.0729+0.06561)=0.49049,
所以事件“两次调整之间所生产的合格品数不小于5”的概率为0.49049
点评:这是一道综合例题,包括了分列的计算及分布列的应用两个步骤。该题对于我们巩固所学知识,深入了解分布列有很大帮助。
题型5:随机变量的均值
例9.(1)(06福建卷)一个均匀小正方体的六个面中,三个面上标以数0,两个面上标以数1,一个面上标以数2,将这个小正方体抛掷2次;
则向上的数之积的数学期望是 ;
(2)(2001上海文)利用下列盈利表中的数据进行决策,应选择的方案是_____.
解析:(1)一个均匀小正方体的6个面中,三个面上标以数0,两个面上标以数1,一个面上标以数2。将这个小正方体抛掷2次,向上的数之积可能为ξ=0,1,2,4,
则,
,
,
,
∴ .
点评:掌握离散性随机变量均值的计算方法,以及计算的先后顺序。
(2)答案:A3
解析:A1的数学期望:=0.25×50+0.30×65+0.45×26=43.7
A2的数学期望:=0.25×70+0.30×26+0.45×16=32.5
A3的数学期望:=0.25×(-20)+0.30×52+0.45×78=45.7
A4的数学期望:=0.25×98+0.30×82+0.45×(-10)=44.6
点评:本题考查概率与数学期望,考查学生识表的能力.对图表的识别能力,是近年高考突出考查的热点.图表语言与其数学语言的相互转换,应成为数学学习的一个重点,应引起高度重视。
例10.(06四川卷)设离散型随机变量可能取的值为1,2,3,4。(1,2,3,4)。又的数学期望,则 ;
解析:设离散性随机变量可能取的值为,所以,即,
又的数学期望,则,即,,∴ 。
点评:均值计算时要根据公式进行简化计算,从而达到简化运算的目的。
题型6:随机变量的方差
例11.甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为ε、η,ε和η的分布列如下:
ε |
0 |
1 |
2 |
η |
0 |
1 |
2 |
P |
|
|
|
P |
|
|
|
试对这两名工人的技术水平进行比较。
分析:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小。
解析:工人甲生产出次品数ε的期望和方差分别为:
,
;
工人乙生产出次品数η的期望和方差分别为:
,
;
由Eε=Eη知,两人出次品的平均数相同,技术水平相当,但Dε>Dη,可见乙的技术比较稳定。
点评:期望仅体现了随机变量取值的平均大小,但有时仅知道均值的大小还不够。如果两个随机变量的均值相等,还要看随机变量的取值如何在均值周围变化,即计算方差。方差大说明随机变量取值较分散,方差小说明取值分散性小或者取值比较集中、稳定。
题型7:正态分布
例12.(06湖北卷)在某校举行的数学竞赛中,全体参赛学生的竞赛成绩近似服从正态分布。已知成绩在90分以上(含90分)的学生有12名。
(Ⅰ)、试问此次参赛学生总数约为多少人?
(Ⅱ)、若该校计划奖励竞赛成绩排在前50名的学生,试问设奖的分数线约为多少分?
可共查阅的(部分)标准正态分布表
|
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1.2 1.3 1.4 1.9 2.0 2.1 |
0.8849 0.9032 0.9192 0.9713 0.9772 0.9821 |
0.8869 0.9049 0.9207 0.9719 0.9778 0.9826 |
0.888 0.9066 0.9222 0.9726 0.9783 0.9830 |
0.8907 0.9082 0.9236 0.9732 0.9788 0.9834 |
0.8925 0.9099 0.9251 0.9738 0.9793 0.9838 |
0.8944 0.9115 0.9265 0.9744 0.9798 0.9842 |
0.8962 0.9131 0.9278 0.9750 0.9803 0.9846 |
0.8980 0.9147 0.9292 0.9756 0.9808 0.9850 |
0.8997 0.9162 0.9306 0.9762 0.9812 0.9854 |
0.9015 0.9177 0.9319 0.9767 0.9817 0.9857 |
解析:(Ⅰ)设参赛学生的分数为,因为-N(70,100),由条件知,
P(≥90)=1-P(<90)=1-F(90)=1-=1-(2)=1-0.9772=0.228.
这说明成绩在90分以上(含90分)的学生人数约占全体参赛人数的2.28%,因此,
参赛总人数约为≈526(人)。
(Ⅱ)假定设奖的分数线为x分,则P(≥x)=1-P(<x)=1-F(90)=1-==0.0951,即=0.9049,查表得≈1.31,解得x=83.1.
故设奖得分数线约为83.1分。
点评:本小题主要考查正态分布,对独立事件的概念和标准正态分布的查阅,考查运用概率统计知识解决实际问题的能力。
6.正态分布
正态分布密度函数:,均值为Eε=μ,方差为。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x =μ对称。
(3)曲线在x =μ时位于最高点。
(4)当x <μ时,曲线上升;当x >μ时,曲线下降。并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。
从理论上讲,服从正态分布的随机变量的取值范围是R,但实际上取区间(μ-3σ,μ+3σ)外的数值的可能性微乎其微,在实际问题中常常认为它是不会发生的。因此,往往认为它的取值是个有限区间,即区间(μ-3σ,μ+3σ),这即实用中的三倍标准差规则,也叫3σ规则。在企业管理中,经常应用这个规则进行产品质量检查和工艺生产过程控制。
5.几种特殊的分布列
(1)两点分步
两点分布:对于一个随机试验,如果它的结果只有两种情况,则我们可用随机变量,来描述这个随机试验的结果。如果甲结果发生的概率为P,则乙结果发生的概率必定为1-P,所以两点分布的分布列为:
|
1 |
0 |
P |
P |
1-p |
均值为E=p,方差为D=p(1-p)。
(2)超几何分布
重复进行独立试验,每次试验只有成功、失败两种可能,如果每次试验成功的概率为p,重复试验直到出现一次成功为止,则需要的试验次数是一个随机变量,用ξ表示,因此事件{ξ=n}表示“第n次试验成功且前n-1次试验均失败”。所以,其分布列为:
ξ |
1 |
2 |
… |
n |
… |
P |
p |
p(1-p) |
… |
|
… |
(3)二项分布
如果我们设在每次试验中成功的概率都为P,则在n次重复试验中,试验成功的次数是一个随机变量,用ξ来表示,则ξ服从二项分布.则在n次试验中恰好成功k次的概率为:
二项分布的分布列为:
ξ |
0 |
1 |
… |
|
… |
n |
P |
|
|
… |
|
… |
|
记ε是n次独立重复试验某事件发生的次数,则ε-B(n,p);其概率…。期望Eε=np,方差Dε=npq。
4.随机变量的均值和方差
(1)随机变量的均值
…;反映随机变量取值的平均水平。
(2)离散型随机变量的方差:
……;反映随机变量取值的稳定与波动,集中与离散的程度。
基本性质:;。
3.独立
相互独立事件:事件A(或B)是否发生对事件B(或A)发生的概率没有影响.这样的两个事件叫做相互独立事件。
独立重复试验:若n次重复试验中,每次试验结果的概率都不依赖于其他各次试验的结果,则称这n次试验是独立的。
公式
(1)两个相互独立事件同时发生的概率,等于每个事件发生的概率的积,即P(A·B)=P(A)·P(B);
推广:若事件A1,A2,…,An相互独立,则P(A1·A2…An)=P(A1)·P(A2)·…·P(n)。
(2)如果在一次试验中某事件发生的概率为P,那么在n次独立重复试验中这个事件恰好发生k次的概率:Pn(k)=CPk(1-P)n-k。
2.离散性随机变量的分布列
一般地,设离散型随机变量可能取得值为:
X1,X2,…,X3,…,
取每一个值Xi(I=1,2,…)的概率为P(,则称表
|
X1 |
X2 |
… |
xi |
… |
P |
P1 |
P2 |
… |
Pi |
… |
为随机变量的概率分布,简称的分布列。
两条基本性质:①…);②P1+P2+…=1。
1.随机变量的概念
如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量。随机变量常用希腊字母ξ、η等表示。
对于随机变量可能取的值,我们可以按一定次序一一列出,这样的随机变量叫做离散型随机变量。
注:随机变量ξ是关于试验结果的函数,即每一个试验结果对应着一个实数;随机变量ξ的线性组合η=aξ+b(a、b是常数)也是随机变量。
2.卡方检验
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
,经过对统计量分布的研究,已经得到了两个临界值:3.841与6.635。当根据具体的数据算出的k>3.841时,有95%的把握说事件A与B有关;当k>6.635时,有99%的把握说事件A与B有关;当k3.841时,认为事件A与B是无关的。
随机变量
湖北省互联网违法和不良信息举报平台 | 网上有害信息举报专区 | 电信诈骗举报专区 | 涉历史虚无主义有害信息举报专区 | 涉企侵权举报专区
违法和不良信息举报电话:027-86699610 举报邮箱:58377363@163.com