文档详情

非参数密度估计课件.ppt

发布:2025-03-30约1.93千字共25页下载文档
文本预览下载声明

非參數密度估計根據從一個總體中抽出的樣本去估計總體分佈的密度函數,在應用上有重要的意義。設是從具有未知密度的一組簡單樣本,需要根據這些樣本對總體密度函數進行估計。最古老的方法是直方圖。引例美國黃石國家公園有一個間歇式噴泉,它的噴發很有規律,大約66分鐘噴發一次,但實際上從33分鐘到148分鐘之間變化。水柱高度可達150英尺。由於其噴發保持較明顯的規律性,人們稱之為老忠實(OldFaithful)。人們想知道間隔時間的密度函數。x=read.table(d:/R數據/faithful.txt,header=T)head(x)eruptionswaiting13.6007921.8005433.3337442.2836254.5338562.88355x1-x$eruptions;x2-x$waitingplot(x1,x2)噴發持續時間(eruptions)和間隔時間(waiting)的散點圖(單位為分鐘,共272個點)hist(x2)從散點圖可以看出,等待時間(waiting)應該有兩個峰hist(x2,10)軟體默認不一定最優hist(x2,20)par(mfrow=c(2,2))hist(x2,10)hist(x2,20)hist(x2,50)hist(x2,100)當區間變細時,直方圖看起來更像密度,但如果數據不夠多,分割區間太多會使個別點太突出而看不出總體形狀。選擇區間的數目大小是畫好直方圖的關鍵。直方圖記錄了在每個區間中點的個數或頻率,使得圖中的矩形條的高度隨著數值個數的多少而變化。但是直方圖很難給出較為精確的密度估計。為了克服直方圖在區間中心部分估計較好,而在區間端點附近效果比較差的缺點,一種改進的方法是核估計方法。核估計方法與直方圖方法類似,核估計方法也計算某一點周圍的點的個數,只是對於近處的點考慮多一點,遠處的點考慮少一點或不考慮。1、核密度估計h稱為帶寬(bandwidth)窗寬h的大小與樣本容量有關,太小和太大都不好。在實際的應用中,常用的核函數為:一般來說,窗寬取得越大,估計的密度函數就越平滑,但偏差可能會較大。如果窗寬太小,估計的密度曲線和樣本擬合得較好,但可能很不光滑。一般選擇的原則是均方誤差最小為宜。有許多方法選擇窗寬,比如交叉驗證法,直接插入法等。faithful-read.table(d:/R數據/faithful.txt,header=T)x=faithful$waitinglibrary(KernSmooth)par(mfrow=c(2,2))w=bkde(x,bandwidth=0.3)plot(w,type=l,main=h=0.3,xlab=,ylab=)w=bkde(x,bandwidth=0.5)plot(w,type=l,main=h=0.5,xlab=,ylab=)w=bkde(x,bandwidth=1)plot(w,type=l,main=h=1,xlab=,ylab=)w=bkde(x,bandwidth=2)plot(w,type=l,main=h=2,xlab=,ylab=)對老忠實溫泉的間隔時間作核估計,其中h分別取0.3,0.5,1和2.核函數為標準正態密度函數。2、局部多項式密度估計局部多項式密度估計是目前最流行的,效果很好的密度估計方法。它對每個點x擬合一個局部多項式來估計在該點的密度。par(mfrow=c(1,1))plot(x=c(30,110),y=c(0,0.04),type=n,bty=l,xlab=waitingtime(minute),ylab=density)lines(bkde(x,bandwidth=dpik(x)))lines(locpoly(x,bandwidth=dpik(x)),lty=3,col=red)對老忠實溫泉的間隔時間作核估計(實線)和局部多項式估計(紅色虛線)。兩種方法在邊界上有區別,與核方法相比較,局部多項式方法在邊界上的估計結果較好。第九章一元非參數回歸

显示全部
相似文档