第一章 绪论 (Charpter1:Introduction)
第一节 医学中统计思维的进化
碎石术与传统手术
Francis Galton、 Karl Pearson、Weldon于1901年创办了著名生物统计杂志Biometrika
Galton早年学医 ,曾在剑桥大学念书。尽管他的数学不是很好 ,但在人类学和优生学研究中萌发的统计学思想 ,对生物统计的发展产生了深远影响 ,如“回归”、双变量正态分布的概念等。他没有子女 ,但一生写了 9部书 ,发表了近 2 0 0篇论文。
K.Pearson专业上最大的贡献是回归分析、相关系数和 χ2 检验
20世纪20年代,英国统计学家 R.A. Fisher爵士1890-1962)创立了实验设计方法和统计分析技术,奠定现代生物统计的基础。他十分清楚实验设计的重要性,精辟地指出 :“试验完成后再找统计学家 ,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”
1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。
1948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》由正中书局出版 ,是我国第一部医学统计方法的教科书。
第二节 统计学与公共卫生互相推动
一、统计学是公共卫生专业人员的得力助手
公共卫生是群体科学,应用统计技术探索群体规律。
统计抽样技术:设计群体调查,掌握人群卫生状况和需求:
统计描述:反映疾病和卫生资源的分布特征;药品数据
统计推断:偶然的背景中识别危险因素、评价卫生措施、进行科学决策。
二、现代公共卫生领域对统计学的挑战
公共卫生不仅应用统计学,而且不断提出新要求和新问题,是现代统计学研究和发展的巨大动力。
第三节 统计学的若干概念
1. 总体与样本(population and sample)
总体:根据研究目的确定的同质研究对象所有观察单位某变量值的的集合。分目标总体与研究总体
样本:从研究总体中随机抽取的部分有代表性的个体某变量值的的集合。
随机抽样(random sampling)
为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)
2. 同质与变异(homogeneity andvariation)
同质:指同一总体中个体的性质、影响条件或背景相同或非常相近。
变异:指同质的个体之间的差异 。
同质与变异的例子
例1 调查2003年石家庄市7岁男童的身高和体重
同质:2003年、石家庄市、7岁男童
变异:身高和体重各不相同
例2 研究某降压药的疗效
同质:高血压患者、用某药治疗
变异:疗效各不相同
3. 变量的类型
观察结果的取值不能事先确定的某一特征叫随机变量(random variable)简称变量(variable),统计上习惯用大写拉丁字母表示 ,如X、Y 、Z、… 。
实际观察结果叫 变量值习惯用小写拉丁字母表示 ,如性别x1=1 (男) 、x2 =1 (男)、x3 =0 (女) 、…。
编号 (ID) | 性别 (X) | 体重 (kg)(Y) | 疗效(Z) |
张1 | 1 | 66 | 0 |
李2 | 1 | 78 | 1 |
王3 | 0 | 57 | 2 |
… | … | … | … |
二分类变量(binary variable)常用0、1来编码,又叫0-1变量,或假变量(dummy variable)、哑变量,可以和真变量一样参与计算。
4. 参数与统计量(parameter and statistic)
参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数
统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量。
5. 设计与分析( design and analyze)
统计设计包括抽样方法、统计学原则、统计方法、数据如何收集、样本量多大等统计学内容。设计决定了统计分析方法。统计设计与统计分析是不可分割的两项内容。
6. 因果与联系(causality and association)
探究因果关系首先考察是否存在联系。但存在联系未必有因果关系,因为存在大量的混杂因素。单靠统计学分析大多只能考察变量之间的联系,难于证明因果关系。
7. 误差(error)
误差:实际观察值与客观真实值之差
(1)系统误差(systematic error)
在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。
特点:观察值有系统性、方向性、周期性的偏离真值。
可以通过严格的实验设计和技术措施消除。
(2)随机误差random error
排除上述误差后尚存的误差,受多种无法控制的因素的影响。
特点:大小方向不一的随机变化。
Ø 随机测量误差(random measurementerror) ——提高操作者熟练程度可以减少这种误差
Ø 随机抽样误差( random sampling error):由抽样造成的样本统计量和总体参数间的差异。
——不可避免,但有一定的分布规律,可估计。
8. 概率probability
确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。
随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。
概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。]
小概率事件
必然事件 P = 1
不可能事件 P =0
随机事件 0<P<1
P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率原理即某事件发生的概率很小,可以视为只进行一次实验时,我们说这个事件是“不会发生的”,这句话在大多数情况下是正确的,但他一定有犯错误的时候,这就叫小概率原理
频率 frequency
样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n。
频率与概率间的关系:
样本频率总是围绕概率上下波动
样本含量n越大,波动幅度越小,频率越接近概率。
第四节 目标与方法
一、基本概念、方法与技能
正确理解基本概念、掌握常用的设计和经典的分析方法、学会用计算器、统计软件完成有关计算。
二、教与学的方法
应用是根本目的,理解概念与动手实践才是根本借助统计学实验理解统计现象与理论,借助案例讨论从反面吸取经验教训。
第五节 学习医学统计学应注意的问题
1、重点:基本概念,基本原理、逻辑思维方法。
2、不追究公式的数学推导。
3、把精力放在公式的适用条件和应用范围上。
4、多实践多练习。
5、保证听课的连续性。
6、学会用计算器、统计软件完成有关计算。
7、到公开发表的医学论文中寻找统计学方面的不 足与错误,从正反两方面学习和运用统计学的理 论和知识
思考题
1. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高医学检验网,如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高也大于乙班?为什么?
2.用A,B两种药物分别治疗一批患者。如果A药的治愈率高于B药,证明A药的疗效优于B药。这种说法对吗?为什么?
3. 统计工作的基本步骤是什么?
4.统计资料分为几类?特点?
判断:大学教授的年收入,欧洲的国家数,血红蛋白含量,患病人数等。
5.什么是总体?什么是样本?
6. 什么是抽样误差?如何减小?能否避免?
为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是( )
A.该地所有20~29的健康女性
B.该地所有20~29的健康女性的血红蛋白测量值
C.抽取的这2000名20~29岁女性
D.抽取的这2000名20~29岁女性的血红蛋白测量值