统计方法与应用-中国医药大学图书馆.pdf
文本预览下载声明
統計方法與應用
中國醫藥大學
生物統計研究所生統中心
梁文敏(ext.: 6107)
主題一資料整理的原則
1. 簡單(不須全放在1張表單)
分幾個表單(基本資料1張、定期追蹤紀錄1張,
放單一id以便連結…)
2. 用代碼取代文字(sex: Male, Female, M,..)
(sex: 1‐‐‐male, 0‐‐‐female)
3. 一個變數一個概念(death: 意外事故死亡、心血
管疾病死亡、…)
分兩個變數(death, d_cause)來表示
4. 將資料分為兩大類型:
連續型(可以量化者,可計算平均值等指標) 、
類別型(代表特質,不適合計算; 二元、三元、…)
主題二多花一點時間在資料探
索階段、再依序深入
• 理解各變數的角色:清楚知道哪些為目標變數、
哪些為解釋變數
• 理解各變數的類型:判斷某些連續型變數是否
需要分組
e.g., 年齡以連續型(單位:歲)或
類別型(1:65, 2:=65)表示
• 單一變數的描述性統計(個數(%) 、平均值、標
準差、中位數、Q1‐Q3 、IQR 、…)
單一變數兩兩關係(crude analysis) (過程中清
楚知道各變數的角色)
• 調整多個變數的分析(multivariate analysis) (過
程中清楚知道各變數的角色)
主題三統計方法的選取
(1) 目標變數的類型
*一般而言此為最主要的依據
(2)解釋變數的類型
(3)解釋變數的個數
*針對一群中風族群進行研究觀察5年
主題四文章中的第一個表格
• 基本資料描述:單一欄的描述或雙欄的描述最為常
見
• 雙欄的描述:依照人口學特質(男性、女性; 65歲、
=65歲) 、醫學資料特質(治療組、對照組; A藥組、B
藥組)將資料分欄描述
• 雙欄的描述搭配統計檢定:
連續型變數‐‐‐以平均值(SD)表示、並搭配獨立樣本t
檢定(M1)最為常見
*若資料量小或偏斜、以中位數(Q1‐Q3, IQR) 、搭
配Wilcoxon sum‐rank test
類別型變數‐‐‐以個數(%)表示、並搭配卡方檢定(M3)
最為常見
*若資料量小、卡方檢定不適用時、則以Fisher’s
exact test取代最為常見
主題五文章中的主要分析表格
(常見在表2或表3)
主題五‐1 線性迴歸分析
目標變數: 連續變數(用平均值表示)
解釋變數:連續變數及類別變數皆可
範例:探討睡眠小時的影響因素
探討睡眠小時與年齡
探討睡眠小時與肥胖
肥胖:分為正常體重組與肥胖組
探討睡眠小時與年齡及肥胖
ˆ
sleepHR 1
8.3280 0.0335 *age 0.036(正常體重)
0.0153 *age *(正常體重)
主題五‐2 邏輯斯迴歸分析
目標變數: 二元類別變數(用勝算表示)
解釋變數:連續變數及類別變數皆可
範例:探討再中風的影響因素
邏輯斯迴歸分析
• 用勝算來表示再中風的風險
• 勝算=再中風率/ (1‐再中風率)
解釋為再中風率的勝算
範例:探討再中風與肥胖
例如: 肥胖組:再中風率=0.64
再中風率勝算=0.64/0.36=1.75
正常組:再中風率=0.32
再中風率勝算=0.32/0.68=0.47
肥胖組再中風率的勝算/正常組再中風率的勝算
=1.75/0.47=3.69 (勝算比, OR– Odds ratio)
OR 1,肥胖組再中風風險高,
通常會計算95%CI(信賴區間) , 若95%CI 不包括1,
表示此相關具有統計上顯著的意義
Crude analysis
显示全部