Pearson ki-kare testi

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımana uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. istatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.^[1]

Bağımsızlık testi

Pearson ki-kare testi yönteminin pratik bir problem çözülmesinde kullanılması şu basamaklar kullanılarak yapılır.

1. Araştırma konusu:
Pearson'un ki kare testi her biri iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken arasındaki bağımsızlık veya bağımlılık ilişkisinin incelenmesi için kullanılır. Bi iki isimsel ölçekle ölçülebilen rassal değişken

$X$ "satır değişkeni" : $r$ kategorili ve $j$ $(j=1,\dotsc ,r)$
$Y$ "sütun segiskeni" : $c$ kategorili $k$ $(k=1,\dotsc ,c)$ .

Araştırma konusu genellikle X ile Y değişkenlerinin birbirinden istatistiksel olarak bağımsız olduğudur. Buna başlıca neden Pearson'ın ki kare yeştinin "bağımlılık" konusunda çok zayıf sonuç vermesidir.

2. Hipotezler:
Pearson'un ki kare test için hipotezler şöyle ifade edilir:

H_{0</sub) "sıfır hipotez" : iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken birbirinden istatisktiksel olarak bağımsızdır.}
H₁ "alternatif hipotez": iki kategorili olan isimsel ölçekle ölçülen iki rassal değişken birbirinden istatistiksel olarak bağımsız değildir.

Bu hipotezlerden açıkça görükmektedir ki sınanma için kullanılan hipotez anakütle parametreler değerleri hakkında değildir ve bir istastiksel nitelik hakkındadır. Böylece Pearson ki-kare testi bir parametrik olmayan istatistik örneğidir. Bunun yanında, dikkat edilmelidir ki alternatif hipotezin bir "negatif" cümle olarak ifade edilmktedir. yani "istatistiksel olarak bağımsız değildir" ifadesi. Bu ifade pozitif vir cümle yani alternatif hipotezde "iki rassal değişken istatistiksel olarak bağımlıdır." dememektedir. Yapılan çıkarımsal test analizi sonuncu "sıfır hipotez" rededilirse iki değişkeninin ne kadar birbirine bağımlı olduğu bulunmaz; bağımlılık derecesi çok küçük olması mümkündür.

3. Veri toplanması, her hücresi için "gözümlenen değerler" bulunan kontenjans tablosu ve marjinal toplamlar:
Pearson ki kare testi "iki-değişirli" istatisiksel analize örnektir; yani her bir "vaka" için iki değişir hakkında veri elde edilir. Değişir için sadece X ve Y olan iki-isimsel ölçekli değişken hakkında cevap olabilir. Örneğin; bir ankete verilen tek kişi cevabı "tek vaka"dır ve araştırmada bu ankete bulunan iki soruya, yani 2 değişire, araştırmacı ilgisi çekilmektedir. Her iki değişir de isimsel ölçekli kategorik değerler alabilir. İki-değişir kategorili gözlem özetlenmesi bir "kontenjans tablosu" halinde olur ve Pearson ki-kare testi için pratikte kullanılan veriler bu karşılıklı olarak sınıflandırılmış iki değişirli "kontenjans tablosu" halindedir.

Kontenjans tablosu verileri şu tip tabloda özetler:

	$Y$ değişiri						Satır Toplamı Σ
$X$ değişiri	1	2	…	k	…	c	n_j.
1	O₁₁	O₁₂	...	O_1k	...	O_1r	O_1.
2	O₂₁	O₂₂	…	O_2k	…	O_2c	n_2.
…	…	…	…	…	…	…	…
j	…	…	…	O_jk	…	…	n_j.
…	…	…	…	…	…	…	…
r	O_r1	O_r2	…	O_rk	…	O_rc	n_c.
Sütun toplamı Σ	n_.1	n_.2	…	n_.k	…	n_.c	n

Bu tabloda bulunan rxc adet $''O''<sub>''jk''</sub>$ ifadesi "gözlem değerleri"'dir ve tam sayılıdırlar. Her bir j satırı için l=1,...,r "satır toplamı" = $n_{\cdot \,j}$ Her bir k sutunu için k=1,...,c "sütun toplamı" = $n_{\cdot \,k}$ olarak bulunur ve bunlar a "marjinal toplamlar" adı da verilir.

Satır toplamları hepsininin toplamı ve sütün toplamları hepsininin toplamı toplam gözlem sayısınına, yani ornmeklem büyüklüğü olan n değerine eşittir.

4. Teorik "beklenen değerler":
Her bir hücre üçün bur "beklenen değer" yani E_jk l-1,...r ve k=1,...c bulunur. Bu "beklenen değer" olasılık teoeiasinde bulunan iki bağımsız rassal değişken olan A ve B için "çarpım savı"na dayanır. Bu "bağımsız iki rassal değişken için çarpım savı" şöyle ifade edilir:

P(A\cap B)=P(A)\cdot P(B)

Bu savı kullanarak ve olasılığın asımtotik olarak "relatif çokluluk"'a eşit olduğu kabul edilip, eğer X ve Y değişirleri sıfir hipoteze uygun olarak bağımsızlarsa, her bir (jk) hücresi için olasılı şöyle ofade edilebilir:

p_{jk}\approx p_{j\,\cdot }\cdot p_{\cdot \,k},

Bu olasılık ifadesinin her iki tarafını da $n$ ile çarpılırsa her bir hücre için "beklenen değer" şöyle bulunur:

E_{jk}\approx {\frac {n_{j\,\cdot }\cdot n_{\cdot \,k}}{n}}

5: Hesaplanan ki-kare değeri. Serbestlik derecesi
Hesaplanan ki-kare değeri

\chi ^{2}=\sum _{j=1}^{m}\sum _{k=1}^{r}{\frac {(O_{jk}-E_{jk})^{2}}{E_{jk}}}.

Serbestlik derecesi : $(r-1)(c-1)$

6. Anlamlılık seviyesi ve bu seviye için teorik test istatistik ki-kare değeri

Anlamlılık seviyesi ve p-değeri.

$\alpha$ wird $H_{0}$ abgelehnt, wenn $\chi ^{2}>\chi ^{2}(1-\alpha ;(r-1)(c-1))$ , dem $(1-\alpha )$ -Quantil der $\chi ^{2}$ -Verteilüng mit $(m-1)(r-1)$

7. Test sonucu ve araştırma konusu

Uygunluk iyiliği testi

"tek düze ayrık dağılım'a uygunluk", binom dağılım'a uygunluk", Poisson dağılım'a uygunluk" ve eğer normal değerler sınıflandırılıp sınıf ortalaması kategori değeri gibi kullanılırsa "normal dağılım'a uygunluk" testleri olabilirler.

Ayrık tekdüze dağılımına uygunluk testi

Bu tip problemde $N$ n tane sayısal olarak belirtilmiş kategorisi bulunan isimsel ölçekli bir değişken bulunur. Elde edilen N sayıda örneklem de bu kategorilerin frekansları çokluluğudur yani Veriler nx1 tipli (yani n satırlı ve 1 sütünlü) bir özel "kontenjans tablosu" halindedir ve bu tabloda n tane hücre bulunup her hücrede o hücrenin kategorisinde olan tam sayı ile ifade edilen "çokluluk (frekans)", $O_{i}$ ı=1..n) vardır. Her bir hücre çokluluğu o kategoriye isabet eden "gözümlenen değer" olarak alınır.

"Sıfır hipotez" bu veri dağılımının teorik olarak ayrık tekdüze dağılım'ina uyacağıdır ve alternatif hipotez bu dağılıma uymayacağıdır. Bu çok basit sıfır hipotezderi ve teorik olarak her bir hücrenin birbirine eşit sayıda "beklenen değer" alacağını önerir. Tekrar dikkat edilmelidir ki "ki-kare dağılım iyiliği" testi de (diğer Pearson ki-kare testi" gibi) eğer sıfır hipotez redelirse "zayıf" sonuç verir; yani eldeki veriler "ayrık tekdüze dağılım"'a uymaz ama hangi dağılım uyduğu bu test ile açığa çıkmaz.

Teorik "ayrık tekdüze dağılımı"'na göre rassal değişkende her bir veri kategorisi aynı olasılık gösterir. Bu nedenle N tane veri için her bir i kategorisi için aynı değer taşıyan "beklenen değer", E, yani

E={\frac {N}{n}}\,,

olarak hesaplanır.

"Hesaplanan ki-kare değeri" her hücre için "gözümlenen değer" eksi "beklenen değer" farkının karesinin "beklenen değer"'e bölünmesinin tüm hücreler için toplanmasıdır: Yani

\mathrm {X} ^{2}=\sum _{i=1}^{n}{\frac {(O_{i}-E)^{2}}{E}}

Test istatistiginin hesaplanmasi

Uygunluk iyiligi sinamasi için test istatistigi su formule gore hesaplanmir:

\mathrm {X} ^{2}=\sum _{i=1}^{n}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}

Bu formulde

\mathrm {X} ^{2}

= Pearson'un kumulatif test istatistigi olup, bu "hesaplanmis

\chi ^{2}

" değeri asimtotik olarak bir ki-kare dagilimi'na yakinlasmaktadir.

O_{i}

= gozumlenen cokluluk degeri;

E_{i}

= sifir hipotez onerisinin gercek oldugu kavul edilerek bir teorik beklenmekte olan cokluluk degerdir ;

n

= tabloda bulunan hucre sayisi

Ki-kare dagilimi, yatay x-ekseni "hesaplanmis

\chi ^{2}

" degerlerini dikey Y-ekseni ise P-degerleridir.

Ayrıca bakınız

Kaynaklar

↑ Karl Pearson (1900). "On the criterion that a given system of deviations from the probable ın the case of a correlated system of variables is such that it can be reasonably supposed to have arısen from random sampling". Philosophical Magazine, Series 5 50 (302): 157–175. DOI:10.1080/14786440009463897.

Dış bağlantılar

Eric W. Weisstein, Chi-Squared Test (MathWorld)
Greenwood, P.E., Nıkulin, M.S.(1996). A guide to chi-squared testing , New York: J.Wiley, ISBN 0-471-55779-X.

İstatistik

Betimsel istatistik

Sürekli veriler

Merkezî konum	Ortalama (Aritmetik, Geometrik, Harmonik) • Medyan • Mod

Yayılma	Açıklık • Standart sapma • Varyasyon katsayısı • Çeyrekler açıklığı • Kesirlilikler (kantil) (Dörttebirlik,Ondabirlik, Yüzdebirlik)

Dağılım şekli	Varyans • Çarpıklık • Basıklık • Momentler

İstatistiksel tablolar

Sıklık dağılımı • Çoklu sayılı özetleme tabloları • İlişki tablosu • Çoklu-yönlü sınıflandırma tabloları

İstatistiksel grafikler

Dairesel grafik • Çubuk grafiği • Kutu grafiği • Dal Yaprak Grafikleri •Kontrol diyagramı • Histogram • Sıklık çizelgesi • Q-Q grafiği • Serpilme diyagramı

Veri toplama

Örnek tasarımı	Anakütle •Basit rassal örnekleme Örüntülü örnekleme • Tabakalı örnekleme • Küme örneklemesi • Çok aşamalı örnekleme •

Deneysel tasarım	Anakütle • İstatistiksel deneysel tasarım tipleri • Deneysel hata • Yineleme • Bloklama • Duyarlılık ve belirleme

Örneklem kavramları	Örneklem büyüklüğü • Sınama gücü • Etki büyüklüğü • Örnekleme dağılımı •Standart hata

Çıkarımsal istatistik
ve
İstatistiksel kestirim ve testler

Çıkarımsal analiz tipleri

Kestirim • Parametrik çıkarımsal analiz •Parametrik olmayan çıkarımsal analiz • Bayesci çıkarımsal analiz • Meta-analiz

Çıkarımsal kestirim

Genel kestirim kavramları	Momentler yöntemi • Maksimum olabilirlilik • Bayes-tipi kestirimci • Minimum uzaklık • Maksimum aralık verme

Tekdeğişkenli kestirim	Kestirim • Güven aralığı • İnanılır aralık

Hipotez testi

İstatistiksel test ana kavramları	Sıfır hipotez • I.Tür ve II.Tür hata • Anlamlılık seviyesi •p-değeri

Basit tek-değişkenli ve iki-değişkenli parametrik hipotez testi	μ için testi • π için test • μ₁-μ₂ için test • π₁-π₂ için test • σ₁/σ₂ için test

Tek-değişkenli ve iki-değişkenli parametrik olmayan test analizi	Medyan testi • Ki-kare testi • Pearson ki-kare testi •Phi katsayısı • Wald testi • Mann-Whitney U testi • Wilcoxon'in işaretli sıralama testi

Korelasyon
ve
Regresyon analizi

Korelasyon	Pearson çarpım-moment korelasyonu • Sıralama korelasyonu ( Spearman'in rho • Kendall'in tau)

Doğrusal regresyon	Regresyon analizi • Doğrusal model • Genel doğrusal model • Genelleştirilmiş doğrusal model

Doğrusal olmayan regresyon	Parametrik olmayan • Yarıparametrik • Logistik

Varyans analizi	Tek-yönlü varyans analizi • Kovaryans analizi • Bloklu tek-yönlü varyans analizi • Etki karışımı değişkeni

Çokdeğişkenli istatistik

Çokdeğişkenli regresyon • temel bileşenler · Faktör analizi •Kanonik korelesyon • Uygunluk analizi • Kümeleme analizi

Zaman serileri analizi

Yapısal model tanımlanması	Zaman serisi yapisal model ögeleri • Zaman serisi ögeleri saptanması • Zaman grafiği • Korrelogram

Zaman serileri kestirim teknik ve modelleri	Dekompozisyon • Trend uygulama kestirimi • Üssel düzgünleştirme • ARIMA modelleri • Box–Jenkins • Spektral yoğunluk kestirimi

Kestirim değerlendirmesi	Zaman seri kestirim değerlendirmesi

Sağkalım analizi

Sağkalım fonksiyonu • Kaplan–Meier • Log-sıra testi • Başarısızlık oranı • orantılı tehlikeler modeli

Kategori • Outline • Endeks

This article is issued from Vikipedi - version of the 8/9/2016. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.