Spearman'ın sıralama korelasyon katsayısı

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan Amerikan istatistikçi Charles Spearman'a atfen adlandırılmıştır.[1] Matematik notasyon olarak çok defa eski Yunan harfi ρ (rho okunur) ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkinda hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.[2][3]

Yöntem

Prensip olarak Spearman'ın sıralama korelasyon katsayısı ρ Pearson çarpım-moment korelasyon katsayısının özel bir halidir. ρ değerinin hesaplanması için iki değişken (Y ve X) içinde örneklem verilerinin sıralama düzeninde olmaları gereklidir. Genel olarak, örneklem verileri için bu koşul uygun değildir ve veriler sıralama düzeni halinde olmadan oransal ölçekli veya aralıksal ölçekli veya sırasal ölçekli olarak bulunur ve bu halde bir dönüşümle sıralama düzeni haline sokulurlar. Böylece ρ formulü için sıralama düzenli ve örneklem verileri kullanılır[4].

Sonra iki değişken için karşılıklı veri elemanları ( ve )nin sıra numaraları arasındaki fark i=1,...n olarak bulunur. Bu tüm karşılıklı veriler (i=1...n) için uygulanır. Eğer sıra numaraları arasında hiç beraberlik yoksa, ρ değerini bulmak için şu formül kullanılır:

Burada

 : i elamni ile sıra numaraları arasındaki fark;
n : iki değişkenli örneklemde toplam gözlem sayısı.

Eğer sıralama esnasında beraberlikler bulunursa, sıralama numaraları verileri olarak kullanılarak klasik Pearson çarpım-moment korelasyon katsayısı formulü kullanılması tavsiye edilir.[4] Bu halde sıralama düzeni hazırlanırken beraberlikler halinde kullanılacak strateji her beraber sıra numaralı veriye beraberlik sira ortalama değeri verilmesidir (yani 1 2,5 2,5 4 stratejisinin uygulanmasıdır). Bu halde formül şu olur :

Spearman'in ρ katsayısı değerleri de (aynı Pearson'un çarpım-moment korelasyon katsayısı gibi) -1 ile +1 arasında değişir. Uç değerler (yani ρ=-1 ve ρ=+1 ve yakın değerler) iki değişken sıralaması arasında bağlantının çok iyi olduğunu (eğer sıralamalar noktalar olarak bir serpme diyagramına konulursa hepsinin çizilen bir doğru üzerinde olduğunu) gösterirler. Eğer ρ<0 ise, sıralamalar arasında indirek aksi değişme vardır; yani biri artınca diğeri azalır ve aksi olur. Eğer ρ>0 ise sıralamalar arasında birlikte (yani birlikte artma veya eksilme) değişme görülür. Eğer ρ=0 ise, sıralamalar arasında hiçbir bağlantını bulunmadığı (ve serpme diyagrami üzerinde noktalarin rastgele dağıldıkları) sonucu çıkartılır.

Diğer sıralama korelasyon ölçüleriyle ilişki

Spearman'in ρ sıralama korelasyon katsayısı ile Kendal'ın sıralama korelasyon katsayısı τ, bu ölçüleri destekleyen varsayımlara göre, birbiri ile aynıdır. Ancak aynı örneklem veriler serisi ile hesaplanan Spearman ρ katsayısı değeri ile Kendal'ın τ katsayısı değeri birbirinden farklı olacaktır. Buna başlıca neden hesaplama formüllerin geliştirilmesi için kullanılan mantıksal önerimlerin başka olması ve bu nedenle bibirinden çok değişik iki formülün ortaya çıkmasıdır. Bu iki katsayı arasındaki ilişki bir eşitsizlik ile ifade edilmiştir:

-1 < = 3 * τ - 2 * ρ < = 1

[5] Spearman'in ρ katsayısı sıralama düzeni verileri ile Pearson çarpım-moment korelasyon katsayısının hesaplanmasıdır ve temel mantik olarak bu iki katsayı aynı önerimlere dayanırlar. Halbuki Kendal'in τ katsayısı bir olasılık ifade eder ve uyuşma ve uyuşmama puanları için gerçek toplam ile maksimum mümkün toplam arasında bir orantıdır.

Örneğin

Tabloda iki değişken X ve Y için n=8 gözlem sayılı örneklem verileri için Spearman'ın sıralama korelasyon katsayısı ρ hesaplanması için örneğin verilmektedir. [A] ve [B] sütunlarında bu iki değişken X ve Y için örneklem verileri verilmiştir. [C] ve [D] sütunlarinda bu iki değişkenlerin verileri için ayrı ayrı sıralama düzeni uygulanıp sıra numaraları x ve y olarak verilmiştir. X için verilerde 2 değişik beraberlik görülmektedir: 3 ve 10. Bu nedenle iki tekrarlı 3 için verilen sıra numaralari ortalaması (2+3)/2= 2,5 dur. Aynı şeklide 2 tekrarlı 10 için sıra numaraları 7,5 7,5 olarak verilmiştir. Y için verilerde ise 1,5 icin 2 beraberlik ve 5 icin 2 beraberlik bulunmaktadir ve bunlara da ortalama sıra numaraları verilmiştir. Sütun [E]de sıra numaraları farkları d verilmekte ve son [F] sütununda fark kareleri d2 hesaplanmaktadır.

[A] [B] [C] [D] [E] [F]
X Y x : X için sıralama y : Y için sıralama d : Sıralama
farkları
d2 : Farkların karesi
2 1,5 1 2,5 -1,5 2,25
3 1,5 2,5 2,5 0 0
3 4 2,5 5 -2,5 6,25
5 3 4 4 0 0
5,5 1 5 1 4 16
8 5 6 6,5 -0,5 0,25
10 5 7,5 6,5 1 1
10 9,5 7,5 8 -0,5 0,25
        Kareler
Toplamı
26

Fark kareleri toplamı olarak bulunmuştur. Hesaplarin değerleri formüle şöyle konulur:

ve şu sonuç bulunur .

Bu ρ=0.6 değeri sıfıra yakin pozitiftir. Sıfıra yakınlığı X ve Y sıralamaları arasındaki bağlantının (korelasyonun) az olduğunu gösterir ve negatif olma ise var zayıf bağlantının aksi yönde olduğunu ifade eder (yani X sıralaması artarsa Y sıralaması düşer ve aksi olur).

Bu veriler içinde beraberlikler bulunmaktadır. Bu nedenle kullanılan genel ρ formülü uygun sonuç vermeyebilir. Daha uygun sonuç bulmak için x ve y sıra numaraları için Pearson'un çarpım-moment korelasyon katsayısı bulunması tavsiye edilmektedir.

ρ kestirimi için anlamlılık sınaması

Eğer hesaplar ve anlamlılık sınaması el hesap makinaları ile yapılmakta ise, klasik çıkarımsal istatistik yöntemleri kullanılmalıdır.

ρ kestirminin anlamlılık sınanması için en basit yaklaşım belirli gözlem sayısı ve belirli anlamlılık düzeyi değerleri için hazırlanmış özel tablolar kullanılarak başarılır [5]. Ancak bu tablolar belirli veri sayısı ve anlamlılık düzeyi dışında ise kullanılamaz.

Önemli kompüter istatistik paketleri Spearman'in sıralamalı korelasyon katsayısını hesapladıkları zaman ek olarak anlamlılık sınaması için p-değerini de yanında vermektedirler.

Diğer bir alternatif yaklaşım eğer örneklem hacmi 20den büyük ise uygulanabilir. Bu halde Student'in t dağılımına bir yaklaşım kullanılır:

değişkeni sıfır hipotez olan ρ=0 için bir Student'in t dağılımı gösterir. Ancak karşıt hipotez biraz zayıftır ve sifir hipotez ret edilnece ρ'nun ne değer alacağını göstermez.

Gözümlenen ρ değerinin anlamlı şekilde 0dan başka değerde olmasını sınama için modern yaklaşım olarak tekrar örnekleme sınaması yöntemi kullanılmaktadır ve bu tip sınama için, sıfır hipotez verilmişse anakütle ρ değerinin örneklemle elde edilen değerde ve ondan büyük olma olasılığı hesap edilir. Bu modern sınama yöntemi ancak kompüter programı yazabilen ve kompüteri iyi kullanabilen bir bilim insanı için çok kolay olabilir.

Dipnotları

  1. Spearman,C.(1904) "The proof and measurement of association between two things" Amer.J.Psychol. C.15 say.72–101
  2. Kendall,M.G. (1962) Rank correlation methods, Griffin
  3. Hollander,M. ve Wolfe,D.A. (1973) Nonparametric statistical methods, New York:Wiley
  4. 1 2 Myers,J.L. ve Well,A.D. (2003), Research Design and Statistical Analysis (2.ed.), Lawrence Erlbaum
  5. 1 2 Siegel,S. ve Castellan,N.J. (1988), Nonparametric statistics for the behavioral sciences 2. ed. New York: McGraw-Hill

İçsel kaynaklar

Dış bağlantılar

This article is issued from Vikipedi - version of the 6/16/2015. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.