高中数学选修23知识点清单.docx
《高中数学选修23知识点清单.docx》由会员分享,可在线阅读,更多相关《高中数学选修23知识点清单.docx(25页珍藏版)》请在冰豆网上搜索。
高中数学选修23知识点清单
高中数学选修2-3知识点
第一章计数原理
1
.1分类加法计数与分步乘法计数
分类加法计数原理:
完成一件事有两类不同方案,在第1类方案中有m种不同
的方法,在第2类方案中有n种不同的方法,那么完成这件事共有N=m+n种不
同的方法。
分类要做到“不重不漏”。
分步乘法计数原理:
完成一件事需要两个步骤。
做第1步有m种不同的方法,
做第2步有n种不同的方法,那么完成这件事共有N=m×n种不同的方法。
分步
要做到“步骤完整”。
n
n元集合A={a,a⋯,a}的不同子集有2个。
1
2
n
1
1
.2排列与组合
.2.1排列
一般地,从n个不同元素中取出m(m≤n)个元素,按照一定的顺序排成一列,
叫做从n个不同元素中取出m个元素的一个排列(arrangement)。
从n个不同元素中取出m(m≤n)个元素的所有不同排列的个数叫做从n个不
同元素中取出m个元素的排列数,用符号A表示。
m
n
排列数公式:
n!
Am=
n
=n(n−1)(n−2)⋯(n−m+1)
(n−m)!
n个元素的全排列数
An=n!
n
规定:
0!
=1
1
.2.2组合
一般地,从n个不同元素中取出m(m≤n)个元素合成一组,叫做从n个不同
元素中取出m个元素的一个组合(combination)。
从n个不同元素中取出m(m≤n)个元素的所有不同组合的个数,叫做从n个
不同元素中取出m个元素的组合数,用符号C或
m
(n)
表示。
n
m
组合数公式:
∵
Am=Cm∙Am
nnm
A
m
n!
Amm!
(n−m)!
n(n−1)(n−2)⋯(n−m+1)
m!
∴
n
Cm=
n
=
=
m
规定:
퐂퐧
ퟎ
=
组合数的性质:
Cm=Cn−m
(“构建组合意义”——“殊途同归”)
n
n
Cm=Cm+Cm−1(杨辉三角)
n+1
n
n
kCk=nCk−1
n
n−1
Ck×C
m−k
n−k
=C×C
m
k
*
n
n
m
1
.3二项式定理
1
.3.1二项式定理(binomialtheorem)
(a+b)n=C0an+C1an−1b+⋯+Ckan−kbk+⋯+Cnbn(n∈N*)
n
n
n
n
其中各项的系数Cnk(k∈{0
,,2,⋯,n})叫做二项式系数(binomialcoefficient)
1
;
式中的Cnkan−kbk叫做二项展开式的通项,用
T
表示通项展开式的第
k+1
项:
k+1
Tk+1=Ckan−kbk
n
*
注意二项展开式某一项的系数与这一项的二项式系数是两个不同的概念。
1.3.2“杨辉三角”与二项式系数的性质
*表现形式的变化有时能帮助我们发现某些规律!
(1)对称性
n
2
n
+
1
(2)当n是偶数时,共有奇数项,中间的一项C
取得最大值;
n−1
n+1
当n是奇数时,共有偶数项,中间的两项Cn
2
,Cn
2
同时取得最大值。
(3)各二项式系数的和为
2n=C0+C1+C2+⋯+Ck+⋯+Cn
nnnnn
(4)二项式展开式中,奇数项二项式系数之和等于偶数项二项式系数之和:
C0+C2+C4+⋯=C1+C3+C5+⋯
n
n
n
n
n
n
(5)一般地,
Cr+Cr+Cr+⋯+Cr=Cr+1(n>푟)
r
r+1
r+2
n−1
n
第二章随机变量及其分布
2.1离散型随机变量及其分布
2.1.1离散型随机变量
随着试验结果变化而变化的变量称为随机变量(randomvariable)。
随机变量和函数都是一种映射,随机变量把随机试验的结果映为实数,函数
把实数映为实数。
试验结果的范围相当于函数的定义域,随机变量的取值范围相
当于函数的值域。
所有取值可以一一列出的随机变量,称为离散型随机变量(discreterandom
variable)。
概率分布列(probabilitydistributionseries),简称为分布列(distributionseries)。
X
P
x1
p1
x2
p2
⋯
⋯
xi
pi
⋯
⋯
xn
pn
也可用等式表示:
P(X=x)=p,i=1,2,⋯,n
i
i
根据概率的性质,离散型随机变量的分布列具有如下性质:
(1)pi≥0,i=1,2,⋯,n;
(2)∑np=1
i=1
i
随机变量X的均值(mean)或数学期望(mathematicalexpectation):
E(X)=xp+xp+⋯+xp+⋯xp
1
1
2
2
它反映了离散型随机变量取值的平均水平。
i
i
nn
随机变量X的方差(variance)刻画了随机变量X与其均值E(X)的平均偏离程度
n
D(X)=∑(x−E(X))2pi
i
i=1
其算术平方根√D(X)为随机变量X的标准差(standarddeviation)。
E(aX+b)=aE(X)+b
D(aX+b)=a2D(X)
若随机变量X的分布具有下表的形式,则称X服从两点分布(two-point
distribution),并称p=P(X=1)为成功概率。
(两点分布又称0-1分布。
由于只有两
个可能结果的随机试验叫伯努利试验,所以两点分布又叫伯努利分布)
X
P
0
1-p
1
p
若X服从两点分布,则E(X)=p,D(X)=p(1−p)
一般地,在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则
k
n−k
CC
퐏(퐗=k)=MN−M,k=0,1,2,⋯,m
n
C
N
X
P
0
1
⋯
⋯
m
0
n−0
1
n−1
CmCn−m
CC
CC
MN−M
MN−M
MN−M
Cn
N
Cn
N
C
n
N
其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*
如果随机变量X的分布列具有上表的形式,则称随机变量X服从超几何分布
(hypergeometricdistribution)。
2.2二项分布及其应用
2.2.1条件概率
一般地,设A,B为两个事件,且P(A)>0,称
P(AB)
P(B|A)=
P(A)
为在事件A发生的条件下,事件B发生的条件概率(conditionalprobability)。
如果B和C是两个互斥事件,则
P(B∪C|A)=P(B|A)+P(C|A)
2.2.2事件的相互独立性
设A,B为两个事件,若
P(AB)=P(A)P(B)
则称事件A与事件B相互独立(mutuallyindependent)。
可以证明,如果事件A与B相互独立,那么A与퐁,퐀与B,퐀与퐁也都相互独立。
̅
̅
̅
̅
2.2.3独立重复试验与二项分布
一般地,在相同条件下重复做的n次试验称为n次独立重复试验(independent
andrepeatedtrials)。
P(AA⋯A)=P(A)P(A)⋯P(A)
1
2
n
1
2
n
其中A(i=1,2,⋯,n)是第i次试验的结果。
i
一般地,在n次独立重复试验中,用X表示事件A发生的次数,设每次试验
中事件A发生的概率为p,则
P(X=k)=Ckpk(1−p)n−k,k=0,1,2,⋯,n
n
此时称随机变量X服从二项分布(binomialdistribution),记作X~B(n,p),并称p
为成功概率。
若X~B(n,p),则
n
n
n−1
E(X)=∑kCkpkqn−k=∑npCk−1pk−1qn−1−(k−1)=np∑Cnk−1pkqn−1−k
n
n−1
k=0
k=1
k=0
=
np(p+q)n−1=np
D(X)=np(1−p)
随机变量的均值是常数,而样本的平均值是随着样本的不同而变化的,因此样
*
本的平均值是随机变量。
随机变量的方差是常数,而样本的方差是随着样本的不同而变化的,因此样本的
方差是随机变量。
2.4正态分布
一般地,如果对于任何实数a,b(a
1
(x−μ)2
2σ2
φμ,σ(x)=
e−
,x∈(−∞,+∞)
√
2πσ
b
P(a<푋≤푏)=∫φμ,σ(x)dx
a
则称随机变量X服从正态分布(normaldistribution)。
正态分布完全由参数μ和σ
确定,记作N(μ,σ2)。
如果随机变量X服从正态分布,则记为X~N(μ,σ2).
φμ,σ(x)的图像称为正态分布密度曲线,简称正态曲线。
(参数μ是反映随机变量取值的平均水平的特征数,可用样本的均值去估计;σ
是衡量随机变量总体波动大小的特征数,可用样本的标准差去估计。
)
标准正态分布:
X~N(0,1)
经验表明,一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作
用结果之和,它就服从或近似服从正态分布。
正态曲线的特点:
(1)曲线位于x轴上方,与x轴不相交;
(2)曲线是单峰的,它关于直线x=μ对称;
1
(3)曲线在x=μ处达到峰值
;
σ√2π
(4)曲线与x轴之间的面积为1。
σ越小,曲线越“高瘦”,表示总体分布越集中;σ越大,曲线越“矮胖”,
*
表示总体分布越分散;
若X~N(μ,σ2),则对于任何实数a>0,
μ+a
P(μ−a<푋≤휇+푎)=∫φμ,σ(x)dx
μ−a
该面积随着σ的减少而变大。
这说明σ越小,X落在区间(μ−a,μ+a]的
概率越大,即X集中在μ周围概率越大。
特别有
P(μ−σ<푋≤휇+σ)=0.6826
P(μ−2σ<푋≤휇+2σ)=0.9544
P(μ−3σ<푋≤휇+3σ)=0.9974
在实际应用中,通常认为服从于正态分布N(μ,σ2)的随机变量X只取
(μ−3σ<푋≤휇+3σ)之间的值,并简称之为ퟑ훔原则。
第三章统计案例
3.1回归分析的基本思想
回归分析(regressionanalysis)是对具有相关关系的两个变量进行统计分析的一种
常用方法。
对于一组具有线性相关关系的数据(x,y),(x,y),⋯,(x,y)
1
1
2
2
n
n
n
n
∑
(x−x̅)(y−y̅)
∑
xy−nx̅̅y
x−nx̅2
̂
b=i=1
i
i
=i=1ii
n2
n
∑
(x−x̅)2
∑
{
i
i=1
i=1i
̂
â=y̅−bx̅
1
1
其中x̅=
∑
nxiy̅=∑ny
,
,(x̅,y̅)称为样本点的中心,回归直线过样
i=1
i=1
i
n
n
本点的中心。
̂
回归方程:
ŷ=bx+â
线性回归模型:
y=bx+a+e
{
E(e)=0,D(e)=σ2
其中a和b为模型的未知参数,e是y与bx+a之间的误差。
通常e为随机变
量,称为随机误差(randomerror)。
与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x
只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。
随机误差e的方差σ越小,用
2
bx+a
预报真实值y的精度越高。
随机误差是
引起预报值퐲̂与真实值y之间存在误差的原因之一,其大小取决于随机误差的方
差。
̂
另一方面,b和â为斜率和截距的估计值,它们与真实值a和b之间也存在误
差,这种误差是引起预报值ŷ与真实值y之间存在误差的另一个原因。
由于随机误差e=y−(bx+a),所以ê=y−ŷ是e的估计量。
对于样本点
(x,y),(x,y),⋯,(x,y)
1
1
2
2
n
n
它们的随机误差为
其估计值为
e=y−bx−a,i=1,2,⋯,n
i
i
i
̂
ê=y−ŷ=y−bx−â,i=1,2,⋯,n
i
i
i
i
i
ê称为相应于点(x,y)的残差(residual)。
i
i
i
可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。
以样本编号为横坐标,残差为纵坐标,可作出残差图。
检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予
以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。
另外,对于已经获取的样本数据,
∑
n(y−ŷ)2
i=1ii
R2=1−
∑
n(y−y̅)2
i=1i
中的∑
n(y−y̅)2
为确定的数。
因此R2越大,意味着残差平方和
∑n(y−ŷ)2
越
i=1
i
i=1
i
i
小,即模型拟合效果越好;R越小,残差平方和越大,即模型拟合效果越差。
R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越
好。
2
一般地,建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关
系等)
(3)有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归
方程)
(4)按一定规则(如最小二乘法)估计回归方程中的参数;
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随
机的规律性等)。
若存在异常,则检查数据是否有误,或模型是否合适等。
回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体;
(2)我们所建立的回归方程一般都有时间性;
(3)样本取值的范围会影响回归方程的适用范围;
(4)不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,比较两个函数模型的拟合程度的步骤如下:
̂
̂
(1)分别建立对应于两个模型的回归方程ŷ=f(x,â)与ŷ=g(x,b),其中â和b
1
2
分别是参数a和b的估计值
2
(2)分别计算两个模型的R值
(3)若R2>R2,则模型1比模型2拟合效果更好;若R21
2
1
2
型1拟合效果更好。
3.2独立性检验的基本思想
不同的“值”表示不同类别的变量叫做分类变量。
列出两个分类变量的频数表称
为列联表(contingencytable)。
常用等高条形图展示列联表数据的频率特征。
2
利用随机变量K来判断“两个分类变量有关系”的方法称为独立性检验(testof
independence)。
反证法原理与独立性检验原理的比较
反证法原理
在假设H下,如果推出一个矛盾,就证明了H不成立
00
独立性检验原理在假设H下,如果出现一个与H相矛盾的小概率事件,就推
0
0
断H不成立,且该推断犯错误的概率不超过这个小概率
0
一般地,假设有两个分类变量X和Y,它们的取值分别为{x,x}和{y,y},其
1
2
1
2
样本频数列联表(称为2×2列联表)为:
y1
a
c
y2
b
d
总计
a+b
c+d
x1
x2
总计
a+c
b+d
a+b+c+d
假设H:
X与Y没有关系,即X与Y独立。
0
则有P(XY)=P(X)P(Y);
根据频率近似于概率,故有
a
a+b
a+c
≈
×
a+b+c+da+b+c+da+b+c+d
化简得ad≈bc
因此,|ad−bc|越小,两者关系越弱;|ad−bc|越大,两者关系越强;
基于以上分析,构造随机变量
n(ad−bc)2
2
K=
,其中n=a+b+c+d为样本容量
(a+b)(c+d)(a+c)(b+d)
2
2
K的值越小则关系越小,K的值越大则关系越大。
(实际应用中通常要求a,b,
c,d都不小于5)
2
2
计算K的观测值k并与K作比较。
统计学研究发现,在H成立的情况下,
0
P(K2≥6.635)=0.01
2
即在H成立的情况下,K的观测值超过6.635的概率非常小,近似为0.01,是
0
一个小概率事件。
若观测值k大于6.635,则有理由判定H不成立,即“X与Y有关系”。
但这种
0
判断会犯错误,犯错误的概率不会超过0.01.
*
(这里概率计算的前提是H成立,即H:
两个分类变量没有关系)
00
若要推断的论述为H:
“X与Y有关系”。
可以通过频率直观地判断两个条件概率
1
P(Y=y|X=x)和P(Y=y|X=x)是否相等。
如果判断它们相等,就意味着X和Y没有
1
1
1
2
a
关系;否则就认为它们有关系。
由上表可知,在X=x的情况下,Y=y的频率为
;
1
1
a+b
c
在X=x的情况下,Y=y的频率为
。
因此,如果通过直接计算或等高条形图
2
1
c+d
a
c
发现
和
相差很大,就判断两个分类变量之间有关系。
a+bc+d
利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。
具体做法是:
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上
界α,然后查下表确定临界值k.
0
P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001
0
k0
0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828
2
(2)利用公式计算随机变量K的观测值k.
2
(3)如果K的观测值k大于判断规则的临界值k,即k≥k,就推断“X与Y有关
0
0
系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超
过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证
据支持结论“X与Y有关系”。
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量
(K2≥k).
之间有关系”的概率不超过P
0
定义:
a
c
W=|
−
|
a+bc+d
则
n(a+b)(c+d)
(a+c)(b+d)
K2=W2×
若“X和Y没有关系”则有
有K2≥k0可推出
P(K2≥k)=0.01
0
(a+c)(b+d)
n(a+b)(c+d)
W≥√k×
0
即可取
(a+c)(b+d)
n(a+b)(c+d)
w=√k×
0
0
于是有以下判断规则:
当W的观测值w>w时,就判断“X和Y有关系”;否则,判断“X和Y没有
0
关系”。
这里w为正实数,且满足在“X和Y没有关系”的前提下
0
P(W2≥w)=0.01
0