0  325230  325238  325244  325248  325254  325256  325260  325266  325268  325274  325280  325284  325286  325290  325296  325298  325304  325308  325310  325314  325316  325320  325322  325324  325325  325326  325328  325329  325330  325332  325334  325338  325340  325344  325346  325350  325356  325358  325364  325368  325370  325374  325380  325386  325388  325394  325398  325400  325406  325410  325416  325424  447090 

(四)、举例:

例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.

(1)利用图形判断秃顶与患心脏病是否有关系.

(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?

解:根据题目所给数据得到如下列联表:

(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.

(2)根据列联表3一11中的数据,得到

≈16.373>6 .

因此有 99 %的把握认为“秃顶与患心脏病有关” .

例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:

表3一12 性别与喜欢数学课程列联表

 
喜欢数学课程
不喜欢数学课程
总计

   37
   85
122

   35
   143
178
总计
   72
   228
300

由表中数据计算得的观测值.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.

解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:

分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例与女生中喜欢数学课的人数比例应该相差很多,即

应很大.

将上式等号右边的式子乘以常数因子

,

然后平方得

  ,

其中.因此越大,“性别与喜欢数学课之间有关系”成立的可能性越大.

另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={≥3. 841}的概率为P (≥3. 841) ≈0.05,

因此事件 A 是一个小概率事件.而由样本数据计算得的观测值k=4.514,即小概率事件 A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.

补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?

 
患心脏病
未患心脏病
合计
每一晚都打鼾
30
224
254
不打鼾
24
1355
1379
合计
54
1579
1633

解:略。

补充例题2: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:

 
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392

试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。

解略

试题详情

对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.

为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)

表3-7 吸烟与肺癌列联表

 
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965

那么吸烟是否对患肺癌有影响吗?

像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.

与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.

图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.

为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.

通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?

为了回答上述问题,我们先假设

H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H0等价于

PAB)=P(A)+P(B) .

把表3一7中的数字用字母代替,得到如下用字母表示的列联表:

表3-8 吸烟与肺癌列联表

 
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d

在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有

,

其中为样本容量, (a+b+c+d)≈(a+b)(a+c) ,

即ad≈bc.

因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.

为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量

                  (1)

其中为样本容量.

若 H0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为

,

这个值到底能告诉我们什么呢?

统计学家经过研究后发现,在 H0成立的情况下,

.                   (2)

 (2)式说明,在H0成立的情况下,的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在的观测值≈56.632 ,远远大于6. 635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .

在上述过程中,实际上是借助于随机变量的观测值建立了一个判断H0是否成立的规则:

如果≥6. 635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系.

在该规则下,把结论“H0 成立”错判成“H0 不成立”的概率不会超过

,

即有99%的把握认为从不成立.

上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即

 H0:“两个分类变量没有关系”

成立.在该假设下我们所构造的随机变量应该很小.如果由观测数据计算得到的的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0 的充分证据.

怎样判断的观测值 k 是大还是小呢?这仅需确定一个正数,当时就认为 的观测值k大.此时相应于的判断规则为:

如果,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.

我们称这样的为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为.

在实际应用中,我们把解释为有的把握认为“两个分类变量之间有关系”;把解释为不能以的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.

   利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?

一般地,假设有两个分类变量X和Y,它们的可能取值分别为{}和{}, 其样本频数列联表(称为2×2列联表)为:

表3一 9  2×2列联表

 


 
总计

 

 

 


 

 

 

总计



若要推断的论述为

Hl:X与Y有关系,

可以按如下步骤判断结论Hl 成立的可能性:

1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.

① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.

② 在二维条形图中,可以估计满足条件X=的个体中具有Y=的个体所占的比例,也可以估计满足条件X=的个体中具有Y=,的个体所占的比例.“两个比例的值相差越大,Hl 成立的可能性就越大.

2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:

① 根据实际问题需要的可信程度确定临界值

② 利用公式( 1 ) ,由观测数据计算得到随机变量的观测值;

③ 如果,就以的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.

在实际应用中,要在获取样本数据之前通过下表确定临界值:

表3一10


 
0.50
 
0.40
 
0.25
 
0.15
 
0.10
 
0.05
 
0.025
 
0.010
 
0.005
 
0.001

0.455
0.708
1.323
2.072
1.323
2.706
3.841
5.024
6.635
10.828

试题详情

教学方法:诱思探究教学法

学习方法:自主探究、观察发现、合作交流、归纳总结。

教学手段:多媒体辅助教学

试题详情

3、独立性检验的步骤。

试题详情

教学重点:理解独立性检验的基本思想;独立性检验的步骤。

教学难点;1、理解独立性检验的基本思想;

2、了解随机变量K2的含义;

试题详情

3、情感、态度与价值观

通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。

试题详情

2、过程与方法

在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。

试题详情

1、知识与技能

通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。

试题详情

通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。

①     通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。

②     通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、     方法及其初步应用。

试题详情

(五) 课后反思:

本节内容对回归分析的探讨过程很精彩,学生讨论很热烈,激发了学生的学习热情。但对残差分析学生只能欣赏它的过程,计算量太大,思维的跳跃性太强!

3.2 独立性检验的基本思想及其初步应用

(共计3课时)

授课类型:新授课

试题详情


同步练习册答案