- 相關(guān)推薦
R語(yǔ)言論文
統(tǒng)計(jì)計(jì)算
分類數(shù)據(jù)的列聯(lián)表分析
信計(jì)1002班 王秋燕 201020310216
分類數(shù)據(jù)的列聯(lián)表分析
第一部分:
統(tǒng)計(jì)學(xué)中根據(jù)變量取值類型的不同,把變量分為兩大類:離散型變量和連續(xù)型變量。離散型變量又稱為定量變量,可分為區(qū)間變量和比率變量。
稱變量為名義變量,如果變量的可能取值是沒(méi)有次序之分的幾個(gè)水平或狀態(tài)。稱變量為有序變量,如果變量的可能去只是有次序之分的幾個(gè)水平或狀態(tài)。
稱變量為連續(xù)型變量,如果變量的可能取值是某個(gè)連續(xù)區(qū)間。 對(duì)離散型變量進(jìn)行抽樣取得的數(shù)據(jù)稱為分類數(shù)據(jù),也稱為屬性數(shù)據(jù)。 統(tǒng)計(jì)運(yùn)用于我們?nèi)粘I畹姆椒矫婷妫绕涫窃谏鐣?huì)科學(xué)中,常常采用列聯(lián)表來(lái)記錄我們所獲得資料,列聯(lián)表的資料看起來(lái)只是一個(gè)一個(gè)的資料,但這些由兩個(gè)或兩個(gè)以上的類別交叉組合得出的格子,行變量的類別用 r 表示,ri表示第
i個(gè)類別,列變量的類別用c
表示,cj表示第j個(gè)類別,每種組合的觀察頻次用fij
表示,表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表,一個(gè)r行
c列的列聯(lián)表稱為r?c列聯(lián)表。通過(guò)運(yùn)用統(tǒng)計(jì)檢驗(yàn)方法,能夠幫助我們更清晰地
分析社會(huì)現(xiàn)象。
列聯(lián)表獨(dú)立性檢驗(yàn)是卡方擬合優(yōu)度檢驗(yàn)的一個(gè)特例,人們將兩個(gè)或多個(gè)特征分類數(shù)據(jù)即交叉分類數(shù)據(jù)以表格形式列出即列聯(lián)表,從而利用這些數(shù)據(jù)用來(lái)研究?jī)煞N或多種分類之間是否有某種聯(lián)系。
第二部分:
我們用統(tǒng)計(jì)理論來(lái)解決這個(gè)問(wèn)題。 方法一:我們采用獨(dú)立性的?2檢驗(yàn)。
?2檢驗(yàn)(Chi-square test)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,K. Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法,可用于兩個(gè)或多個(gè)率(或者構(gòu)成比)之間的比較,計(jì)數(shù)資料的關(guān)聯(lián)度分析,擬合優(yōu)度檢驗(yàn)等。 ①?2檢驗(yàn)用途:
比較稱名變量的次數(shù),具體來(lái)講,就是比較實(shí)際次數(shù)與期望次數(shù)(或理論次數(shù))之間是否有相助差異,或研究檢驗(yàn)觀察值與理論值之間的緊密程度。?2擬合檢驗(yàn)就是用來(lái)確定事件出現(xiàn)的頻數(shù)分布與某一理論分布之間的差別是否是隨
機(jī)性的。
②?2分布基本思想: 第一,屬連續(xù)型分布,第二,可加性是其基本性質(zhì),第三,唯一參數(shù),即自由度。
(1)自由度為1的?2分布,若Z~N(0,1),則Z2的分布稱為自由度為1的?2
2(Chi-square distribution),記為?(1)或?2(1)。
(2)Z1,Z2......Zv互相獨(dú)立,均服從N(0,1),則Z12?Z22?......?Zv2的分布稱自由度為V的?
2?(2v)近
的正態(tài)分布。
圖一
2
③?2檢驗(yàn)(chi-square distribution)基本公式:? ??T,
(A?T)
2
??(R?1)(C?1)
上述基本公式由K. Pearson提出,因此許多統(tǒng)計(jì)軟件上常稱這種檢驗(yàn)為Pearson’s Chi-square test,其他卡方檢驗(yàn)都是在此基礎(chǔ)上發(fā)展起來(lái)的\。 ④?2檢驗(yàn)主要有三個(gè):適應(yīng)性檢驗(yàn),正態(tài)性檢驗(yàn)以及獨(dú)立性檢驗(yàn)。
(1)適合性檢驗(yàn)為單樣本卡方檢驗(yàn),它只是記一個(gè)變量,但數(shù)據(jù)要分成若干相互排斥的組和范疇。其目的是檢驗(yàn)時(shí)間次數(shù)與期望次數(shù)是否吻合。
? np( 實(shí)統(tǒng)計(jì)量: 2 (n i ) ,實(shí)質(zhì)是: 測(cè) 頻 數(shù) ? 理 論 頻 數(shù) ) 2
???i???npi理論頻數(shù)i?1i?1
k
2
k
2
適合性檢驗(yàn)是用樣本提供的信息去推斷總體分布是否適合某種已知的規(guī)律。 (2)正態(tài)性檢驗(yàn),用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)其實(shí)也是一種適合性檢驗(yàn),即檢驗(yàn)實(shí)際次數(shù)分布與期望次數(shù)分布是否有顯著性差異。
(3)獨(dú)立性檢驗(yàn)就是檢驗(yàn)兩個(gè)特征或兩個(gè)分類標(biāo)準(zhǔn)是互相獨(dú)立的還是互有聯(lián)系的。用于獨(dú)立性檢驗(yàn)的數(shù)據(jù)一般整理成“列聯(lián)表”的形式,即一個(gè)分類標(biāo)準(zhǔn)把
數(shù)據(jù)分為若干列,另一個(gè)分類標(biāo)準(zhǔn)把數(shù)據(jù)分為若干行,行列交叉形成一個(gè)個(gè)的方格。每一行和每一列都有一個(gè)總計(jì),書(shū)寫(xiě)在一行或一列的末尾,稱為“邊際總和”。所有邊際和加起來(lái)就是全部數(shù)據(jù)的個(gè)數(shù)或樣本容量(N)。 獨(dú)立性檢驗(yàn)的分析步驟: 第一步:建立假設(shè)與備擇假設(shè):
H0:pij=pi?pj(行變量與列變量獨(dú)立); H1: pij=pi?pj(行變量與列變量不獨(dú)立)。 第二步:確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量為chi-square;
第三步:規(guī)定顯著性水平?,查表得出拒絕域和臨界值; 第四步:運(yùn)用R語(yǔ)言命令運(yùn)行;?
第五步:作出判斷將檢驗(yàn)統(tǒng)計(jì)量的值與?水平的臨界值進(jìn)行比較,得出接受或拒絕原假設(shè)的結(jié)論:若樣本統(tǒng)計(jì)量的值落入拒絕域,則拒絕原假設(shè),接受備擇假設(shè)
H1;否則,接受H0。
?2統(tǒng)計(jì)量用于檢驗(yàn)列聯(lián)表中變量之間是否存在顯著性差異,或者用于檢驗(yàn)變量之間是否獨(dú)立。當(dāng)n很大,每格eij都不太小時(shí),服從自由度k?(r?1)(c?1)的
?分布,計(jì)算公式為: ,其自由度為(r?1)(c?1),nij一列聯(lián)
2
eij一列聯(lián)表只第表中第i行第j列類別的實(shí)際頻數(shù),i行第j列類別的實(shí)際頻數(shù)。 2rc
方法二:Fisher精準(zhǔn)檢驗(yàn)
??
2
??
i?1
j?1
(nij?eij)
eij
Fisher精準(zhǔn)檢驗(yàn)是列聯(lián)表行變量和列變量獨(dú)立性的另一種檢驗(yàn)方法,F(xiàn)isher精準(zhǔn)檢驗(yàn)是在行與列邊際總數(shù)固定的假設(shè)下,利用超幾何分布,用枚舉法計(jì)算列聯(lián)表可能出現(xiàn)情況的概率,此時(shí)要檢驗(yàn)的問(wèn)題仍是
HO:行變量和列變量相互獨(dú)立。 (1) 首先介紹多元幾何的多元推廣,它是超幾何分布的多元推廣。 定義:設(shè)隨機(jī)向量X=(x1,x2,???xr)滿足條件:
(1)0?Xi?Ni(i=1,2,...,r),且N1?N2?...?Nr?N,
r
(2)m1,m2,...,mr為r個(gè)非負(fù)整數(shù),o?mi?Ni且?mi?m(0?m?N),事件概率
i?1
由下式給出:
(
P((X1,X2,...XR)?(m1,m2,...mr))?
N1m1
)(
N2m2(N
)...()
Nrmr
r
)?
m!(N?m)!?Ni!
i?1
r
,則稱X
m
N!?mi!(Ni?mi)!
i?1
服從多元超幾何分布,記為X~MH(N1,N2,...Nr;m).
多元超幾何分布的背景如下,共有N個(gè)個(gè)體分為r類,其中第i(i?1,2,...,r)類有Ni個(gè),現(xiàn)從總體中等可能無(wú)放回的抽取m個(gè)個(gè)體,用Xi表示m個(gè)個(gè)體中屬于第i類的個(gè)數(shù),則X?(X1,X2,...,Xr)服從多元超幾何分布。特別當(dāng)r?2時(shí),多元超幾何分布就是超幾何分布。
①2?2表Fisher精準(zhǔn)檢驗(yàn):觀測(cè)表(Table)概率,雙側(cè)(Twosided)p值,左側(cè)(Leftsided)p值,右側(cè)(Rightsided)p值。
觀測(cè)表概率是按超幾何分布計(jì)算的所觀測(cè)到表格的概率。較小的雙側(cè)p值有利于行變量和列變量有關(guān)聯(lián)的備擇假設(shè)。對(duì)于2?2表,當(dāng)行列邊際總數(shù)固定時(shí),如表1,n11的數(shù)值完全決定了整個(gè)表格,n11記為(1,1)單元格可能出現(xiàn)的頻數(shù),則Fisher精準(zhǔn)檢驗(yàn)的左側(cè)p值是事件{n11?F}的概率,右側(cè)值是事件{n11?F}的概率。
表1
n11?F Leftsided p=
p(n11)?p(n11?F)
P(n11)?
n11?F
p(n11), Rightsided p=
?
n11?F
p(n11)。
如表1,在行邊際總數(shù)固定條件下,可以把row1和row2兩行看成兩個(gè)獨(dú)立的二項(xiàng)分布總體,則檢驗(yàn)問(wèn)題(1)中的H0相當(dāng)于row1和row2有相同的二項(xiàng)分布,所以檢驗(yàn)問(wèn)題(1)寫(xiě)成
H0:p(Y?coll)?p(Y?collX?row1)?p(Y?collX?row2),結(jié)合表1,則
HO:p?1?
p1p1?
1
?
p
21
p2?
。 (2)
由此不難理解,在Fisher精準(zhǔn)檢驗(yàn)中,與檢驗(yàn)水平?相比較,小的左側(cè)p值有利于備擇假設(shè):對(duì)于row1總體,觀測(cè)屬于coll的概率,小于其期望概率;小的右側(cè)p值有利于備擇假設(shè):對(duì)于row1總體,觀測(cè)屬于coll的概率,大于其期望概率。即左側(cè)p值和右側(cè)p值分別對(duì)應(yīng)檢驗(yàn)問(wèn)題(2)的如下備擇假設(shè);
?H1:p11p1??p?1,Leftside?
?H2:P11P1??P?1,Rightside
p,p,
,
綜上所述,對(duì)2?2表,F(xiàn)isher精準(zhǔn)檢驗(yàn)的左側(cè)p值小于檢驗(yàn)水平,說(shuō)明row1的coll風(fēng)險(xiǎn)小于row2的coll風(fēng)險(xiǎn),即p?p12,又等價(jià)于OR(Odds Ratio,優(yōu)比比率)大于1。右側(cè)p值小于檢驗(yàn)水平,說(shuō)明row1的coll風(fēng)險(xiǎn)大于row2的coll風(fēng)險(xiǎn),即p?p12。
第三部分:
用R語(yǔ)言解決
> x dim(x) rcl rcl (輸出結(jié)果) V1 v2 2 4 3 6
> dimnames(rcl)[[1]] dimnames(rcl)[[2]] rcl(輸出結(jié)果) b1 b2 a1 2 6 a2 5 7
> Chisq.test(rcl)(用皮爾松卡方檢驗(yàn))
Pearson's Chi-squared test with Yates' continuity correction data: rcl
X-squared = 0.0824, df = 1, p-value = 0.774(輸出結(jié)果)
最后看p-value值,p-value0.05,接受原假設(shè),兩者是獨(dú)立的,沒(méi)有關(guān)系。 從結(jié)論看,p-value = 0.774,接受原假設(shè),兩者是獨(dú)立沒(méi)有關(guān)系的。
第四部分
例子:為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人)。
> dim(s)=c(2,2) > s
[,1] [,2] [1,] 7775 42 [2,] 2099 49 > rcl rcl V1 V2 1 7775 42 2 2099 49
> dimnames(rcl)[[1]]
> dimnames(rcl)[[2]] rcl
do not get lung cancer lung cancer do not smoke 7775 42 smoke 2099 49 > chisq.test(rcl)
Pearson's Chi-squared test with Yates' continuity correction data: rcl
X-squared = 54.721, df = 1, p-value = 1.389e-13
從最后的p-value可以看出,p-value
【R語(yǔ)言論文】相關(guān)文章:
學(xué)科術(shù)語(yǔ) R05-04
論文化語(yǔ)言學(xué)中的語(yǔ)言與文化04-28
根據(jù)R基因保守區(qū)分離小麥R基因類似序列05-03
《zh ch sh r》的教案08-26
淺談R&D活動(dòng)04-28
HexTOOL(R)的初步驗(yàn)證試驗(yàn)04-28
天文術(shù)語(yǔ) R-S05-04