《描述统计学》课件.ppt
*******************描述统计学概论描述统计学是一门基础的统计学科,主要研究如何通过数据收集、整理和分析来描述研究对象的特征。它为后续的推断统计学奠定了基础。什么是描述统计学数据分析基础描述统计学是利用数据收集和整理的方法,对数据的基本特征进行分析和描述的统计学分支。它是数据分析的基础。数据整理与描述描述统计学主要通过计算数据的集中趋势、离散程度、分布形态等指标,并利用图表等方式直观地描述数据特征。数据分析应用描述统计学为数据分析和决策提供基础支持,是进一步开展数理统计分析、建立数学模型的前提。描述统计学的应用领域商业分析描述统计学广泛应用于企业的数据分析和决策支持,帮助企业了解市场状况、客户需求并制定有针对性的策略。医疗研究在医疗领域,描述统计学用于分析患者数据、比较治疗方案的效果,为医疗决策提供证据支持。教育统计描述统计学在教育领域被广泛应用,评估教学质量、分析学习成绩,为教育政策制定提供数据支持。社会科学研究在社会学、心理学等领域,描述统计学有助于量化人类行为和社会现象,为相关理论研究提供数据支持。数据类型与数据收集方法定性数据不可量化的属性或特征,如性别、职业等,通常采用调查或访谈等方法收集。定量数据可以用数字表示的特征,如身高、工资等,常通过测量、统计等方式收集。主动收集通过调查问卷、访谈等主动获取数据的方法,可以获得更丰富的信息。被动收集利用现有的数据库或统计报告等间接获取数据,效率较高但信息可能有限。中心趋势措施-平均数平均数是描述统计学中最常用的中心趋势度量指标。它反映了一组数据的整体水平,能有效概括数据的整体特征。计算平均数时,需将所有数据相加,再除以总样本量,得到平均值。平均数能够快速反映数据的平均水平,是分析数据集中趋势的重要工具。平均数易受离群值影响,因此在分析前需先检查数据分布,以确保平均值具有代表性。中心趋势措施-中位数50%中位数$80,000中位数收入4.5中位学历年数中位数是一组数据按大小排序后位于中间的值。与平均数不同,中位数不受极端值的影响。中位数可以更好地反映一组数据的中心趋势。例如中位数收入可以更好地代表一个群体的生活水平,而不会被极高或极低的收入水平所影响。中心趋势措施-众数众数概念众数是在一组数据中出现频率最高的数值。它代表了整个数据集合的集中趋势,体现了数据的核心特征。众数优点众数直观易懂,容易理解和计算。它特别适用于描述分类型变量或离散型变量的集中特征。众数局限性对于连续型变量,众数不易确定。众数也可能受到极端值的影响而不能真实反映数据的集中趋势。离散趋势措施-极差极差一组数据中最大值与最小值之差。计算方法极大值-极小值应用场景快速了解数据离散程度,发现离群值。常用于描述性统计分析。注意事项极差受异常值影响较大,不能全面反映数据离散趋势。应结合其他指标综合分析。离散趋势措施-方差方差是描述数据离散趋势的一个重要指标。它反映了数据点的离散程度,即数据点与平均值的偏离程度。通过计算方差可以了解数据是否集中或是否存在离群值。从线图可以看出,数据集B的离散程度最高,而数据集C的离散程度最低,说明数据集C的数据比较集中。离散趋势措施-标准差0.5小方差数据集的值彼此相差不大,分布集中。3中等方差数据集的值存在一定离散度。10大方差数据集的值差异较大,分布较为分散。标准差是描述数据分散程度的指标之一。它衡量了数据点与平均值之间的平均偏差程度。标准差越大,表示数据越离散。数据分布形态-偏态偏态概念偏态(Skewness)描述数据分布的不对称程度。正偏态表示数据分布右侧尾部较长,负偏态则表示数据分布左侧尾部较长。偏态的计算通过计算数据的三阶矩,可以得到偏态系数,用于评估数据分布的对称性。偏态系数大于0表示正偏态,小于0则为负偏态。偏态的应用偏态可以帮助分析数据分布的倾斜程度,为后续的统计分析提供重要依据。识别偏态有助于选择合适的统计方法。数据分布形态-峰度峰度概念峰度反映了数据分布曲线的陡峭程度。高峰度表示数据集中于平均值附近,低峰度则意味着数据更加分散。峰度计算峰度的数学公式为μ4/σ4,其中μ4为四阶中心矩,σ为标准差。峰度值大于3称为超峰,小于3称为低峰。峰度应用峰度可用于判断数据分布是否正态分布、是否存在异常值等。了解数据分布特征有利于选择合适的统计分析方法。相关分析-皮尔逊相关系数何为皮尔逊相关系数用于度量两个变量之间的线性相关关系强度。取值范围为[-1,1]。计算公式r=∑(x-x?)(y-?)/√∑(x-x?)