Python数据分析基础与应用电子活页5-9箱形图的作用.docx
Python数据分析基础与应用
模块
PAGE2
PAGE21
电子活页5-9箱形图的作用
①识别数据中的异常值。
3σ原则需要以数据服从正态分布为前提,但实际数据往往不能严格服从正态分布,且其判断异常值的标准以数据的平均值和标准差为基础,而平均值和标准差耐抗性较小,异常值本身对它们影响较大,判断出的异常值个数不会多于总数的0.7%。
和3σ原则相比,箱形图依据实际数据绘制,可以真实、直观地表现出数据分布的本来面貌,且没有对数据做任何限制性要求(3σ原则要求数据服从正态分布或近似服从正态分布),其判断异常值的标准以四分位数和四分位距为基础。四分位数给出了数据分布的中心、散布和形状的某种指示,具有一定的耐抗性,即25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值通常不会对这个标准造成影响。鉴于此,箱形图识别异常值的结果比较客观,因此箱形图在识别异常值方面具有一定的优越性。
②易于发现数据的偏态和尾重。
服从标准正态分布的数据,只有0.7%的值是异常值,中位数位于上、下四分位数的中央,箱形图的方盒关于中位数对称。若异常值集中在较大值一侧,则分布呈现右偏态;若异常值集中在较小值一侧,则分布呈现左偏态。尽管不能给出偏态和尾重程度的精确量度,但可以作为粗略估计的依据。
③能用于探索性数据分析,分析数据的形状。
并排对比多组数据箱形图,能一目了然地查看中位数、尾重、异常值、分布区间等信息。