Kruskal-Wallis sıralamalı tek-yönlü varyans analizi

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek-yönlü varyans analizi, bağımsız gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur.[1]. Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

Kruskal-Wallis sıralamalı tek-yönlü varyans analizinin amacı içinde g tane grup bulunan bir anakütlenin grup medyanlarının eşit olup olmadığını araştırmaktır. Parametrik olmayan istatistik oladuğu için Kruskal-Wallis sınaması anakütlenin normal dağılım gösterdiğini varsaymamaktadır ve bu nedenle şeklen benzeri olan tek yönlü varyans analizinden değişiktir.

Ama bu sınama için yapılan ana varsayım incelenen her anakütle grubunun, grup medyan değerlerindeki farklılık dışında, ayni dağılım gösterdiğidir.

Sıfır ve karşıt hipotezler

Problem için sıfır hipotezi

H0 : g grup medyanları birbirine eşittir.

Bu sıfır hipotezi kullanılan sonuç çıkartıcı istatistik analizi yani hipotez sınama kuralları kullanılarak kabul veya red edilecektir. Kruskal-Walis sınaması bir tek-yönlü varyans analizinin analogu olduğu için, karşıt hipotez biraz karmaşıktır. Karşıt hipotez '

H1: Bazı grup medyanları birbirine eşit değildir

şeklinde ifade edilir. Bu demektir ki sıfır hipotez red edilince kesin anlamlı bir sonuç ortaya çıkmamaktadır. Ya bütün grup medyanları birbirine eşit değildir yahutta bazı grup medyanları eşit değildir yani bazıları birbirine eşittir. Hangilerinin birbirlerine eşit olduğunu bulmak için varyanslar analizinde çoklu karşılaştırmalar analizi adı altında bir sıra istatistiksel yöntem geliştirilmiştir.

Örneklem verileri ve sıralama düzeni

Örneklem ham verileri şunlardır:

Bu ham örneklem verilerinin dönüştürülüp genel sıralama düzeni verileri haline getirilmesi gereklidir. Grup üyeliğini bir kenara bırakarak tüm grupları birlikte alarak bütün veri değerlerini, yani 1 ile N sayıda veri değeri, sıralama düzenine konulur. Burada beraberlik gösteren veri değerlerine uygulanan en uygun strateji beraberlik gösterenlerin ortalama sıra numarasının kullanılmasıdır ve bu bazan kesirli sıralama numarası ortaya çıkartabilir. Her bir grup verileri için bu genel sıralama numaraları ayrılır ve bunlar analize veri olur.

r_{ij} tüm gruplari birlikte alarak (tüm gözlemler) için verilen sıralama numaraları olup her bir i grup için j sayılı sıralama numarasıdır.

Kruskal-Wallis sınama istatistiği için hesaplar

Önce tüm sıralama düzeni sıralama numaraları (yani tüm r_{ij}) için tüm sıralama numaraları ortalaması \bar{r} alınır. Formül şu olur:

\bar{r} =(N+1)/2.

Sonra her bir grup (i=1,..g) için sıralama numaraları ayrı ayrı alınarak grup sıralama numaraları ortalamaları (yani \bar{r}_{i\cdot} i=1,..g) bulunur. Her bir grup için formül şudur:

\bar{r}_{i\cdot} = \frac{\sum_{j=1}^{n_i}{r_{ij}}}{n_i}.

Genel Kruskal-Wallis sınama istatistiği (K) şöyle verilir:

K = (N-1)\frac{\sum_{i=1}^g n_i(\bar{r}_{i\cdot} - \bar{r})^2}{\sum_{i=1}^g\sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2}

Bu genel sınama formülü daha da geliştirilebilir:

Eğer, genel sıralama düzeni beraberlik halinde kullanılan strateji ortalama sıra numaralarını kullanma değilse, bu genel sınama formülü kullanılır. Bu halde beraberlik için bir düzeltme faktörü bulunup kullanılır. Bu beraberlik düzeltme faktörü (BDF) şudur:

BDF = 1 - \frac{\sum_{i=1}^G (t_{i}^3 - t_{i})}{N^3-N}.

Burada

Bu halde beraberlikler için düzeltilmiş genel Kruskal-Wallis test istatistiği

K* = K / BDF

olur. Ancak pratikten bilinmektedir ki eğer beraberlikler sayısı ve her beraberlikte bulunan sıralama numara sayısı küçükse, bu beraberlik düzeltmesi sınama sonuçlarına çok az etkide bulunur.

Eğer sıralama düzeni kurulurken hiç beraberlik bulunmuyorsa veya beraberlik halinde kullanılan strateji beraberlik sıralamaların ortalaması ise, K genel formülü için paydayı basitleştirebilme imkânı vardır. Dikkat edilirse payda 1,..,N tamsayılarının toplamına eşit olur ve bu toplam için bir özel formüle göre bu toplam hesaplanabilir. Böylece formül paydası

{\sum_{i=1}^g\sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2} = (N-1)N(N+1)/12

olur. Bu, genel sınama formülüne konulursa Kruskal-Wallis genel sınama istatistiği şöyle ifade edilir:

K = \frac{12}{N(N+1)}\sum_{i=1}^g n_i(\bar{r}_{i\cdot} - \bar{r})^2.

Anlamlılık düzeyi, p-değeri ve sonuç

En son aşama olarak ya bir g-1 serbestlik değerli ki-kare dağılımı icin p-değeri bulmak veya yine g-1 serbestlik değerli ki-kare tablo değerlerini bulmak; bunları anlamlılik değeri ile karşılaştırıp sıfır hipotez hakkında sonuç çıkartamak ve bu sonucu açıklamak gerekir:

Küçük grup veri sayıları

Eğer bazı gruplar için veri sayısı ni küçükse, yani 5 veya 5in altında ise, kullanılacak anlamlılık değerleri Kruskal-Wallis tarafından özel bir tabloda verilmiştir.[2].

Büyük grup veri sayıları

Eğer grup veri sayıları büyük ise, yani hepsi 5den fazla ise, p-değeri yaklaşık olarak

\Pr(\chi^2_{g-1} \ge K)

dağılımı gösterir.

Kruskal-Wallis sınama istatistiği K (veya K*) kullanılarak (g-1) serbestlik derecesi için ki-kare dağılımı kullanılarak bir p-değeri bulunabilir. Genellikle p-degeri bulmak için özel bir kompüter ki-kare değer simulasyon programı veya özel bir istatistik paket programı kullanılmasi gerekir.

Diğer bir yaklaşım, p-değeri bulmadan her bir serbestlik derecesi için özel ki-kare dağılımı yukarı kuyruk alanları veren özel ki-kare tablosu kullanma ile ortaya çıkartılır. Bu halde (g-1) serbestlik değeri için %5 ve %1 tablo değerlerine bakılır. Bu tablo degerleri hesaplanmış K değeri ile karşılaştırılır:

Sonuç açıklaması

Eğer sıfır hipotez kabul edilirse problem için sonuçlar çok kesin ve anlamlı sayılır. Bu problem için ana varsayım

olduğu için sıfır hipotez kabul edilmesi daha pratik bir sonuç olarak

sonucu çıkartılabilir.

Eğer sıfır hipotez rededilirse (yani karşıt hipotez kabul edilirse) sonuçlar çok kesin değildir. Aynı parametrik tek yönlü varyans analizi sonucu gibi, bu halde grup medyanlarının hepsi birbirine eşit olmamakla beraber, grup medyanlarının bazılarının birbirine eşit olmaları mümkündür. Bu halde varyanslar analizinde çoklu karşılaştırmalar analizi kullanılır.

Ayrıca bakınız

Referanslar

  1. William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 583–621,
  2. William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 614–617,

Dışsal kaynaklar

This article is issued from Vikipedi - version of the 1/17/2016. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.