R-web资料分析应用回归分析-台北医学大学生物统计研究中心.PDF
文本预览下载声明
臺北醫學大學生物統計研究中心 eNews 第 10 期 2015/12
R-web資料分析應用:迴歸分析
李智慎副統計分析師
上圖為一模擬資料,可以很直覺的看出X 與Y有正相關 ,且每個資料
點都落在直線附近, 在日常生活中許多事物彼此間常常存在著線性關係,
如要將變數與變數之間的關係以具體的式子表達,其中一個簡單且常用的
方法就是利用簡單線性迴歸模型來分析,兩變項X 與Y關係可表示成 Y =
β + ,其中Y 、X 分別稱為依變數(dependent variable) 與自變數
0 1
(independent variable) ,由此式子模型可以很明確的從截距項β和係數 β得
0 1
第1 頁
臺北醫學大學生物統計研究中心 eNews 第 10 期 2015/12
知自變數改變時對依變數的影響,當自變數增加 1單位,依變數則增加 β1
單位,但現實生活中實際例子幾乎不存在這種完美的線性關係,會有各種
其他因素造成誤差存在,因此會在模型中加入一個隨機誤差項ε 來表示,i
完整的簡單線性迴歸模型可表示為
Y = + +
i 0 1
2
隨機誤差項 ε在統計學上假設為常態分配,且平均數為0變異數為σ ,i
~ ( 2)
可寫成 0, ,iid為independent and identically distributed的縮寫,表
示誤差項ϵ彼此互相獨立且相同分配 。迴歸分析中限制依變數需為連續型i
變數而自變數則無限制連續離散皆可,假如想建造離散型依變數的迴歸模
型則可用邏輯斯迴歸,這部份我們將會在下期作介紹 。而本期同樣統一使
用源自基隆社區為基礎的整合篩選計畫 (Keelung Community-based
Integrated Screen Program, KCIS)的心血管疾病資料作範例資料檔,有關此
資料的詳細資訊及變數定義請參閱首期生統 eNews 。
迴歸模型係數的估計-最小平方法
我們知道迴歸模型為一種表示自變數與依變數之間關係的方式,但迴
歸係數通常都是未知的,我們該設定係數為多少才是一個好的迴歸模型呢 ?
最簡的的方法就是最小平方法,其精神在於讓迴歸模型的誤差項平方合能
最小,即最小化物差平方總合∑ ( − + )2 ,可利用微分的方式進
=1 0 1
( ̅)( ̅)
Σ − −
̂ =1 ̂ ̅ ̂ ̅
而求得預估值 = 、 = − ,而此時誤差項變異數的
0 ( ̅)2 1 1
Σ −
=1
( ̂ )2
Σ −
显示全部