Kutu grafiği

Michelson-Morley Deneyi veri setleri için dikey "Kutu Grafikleri"

İstatistik biliminde kutu grafiği (İngilizce: Box plot) bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu [1] gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

En basit çiziminde izlenecek yordam

1. Veri seti için Xmed: medyan (ortanca), Xmin (en küçük gözlem değeri), Q1 (birinci dörttebirlik), ve Q3 (üçüncü dörttebirlik) ve Xmaks(en büyük gözlem değeri) olarak bulunur. Bunun en kolay yaklaşımı veri setinin en küçük değerden en büyük değere kadar sıralaması yapılmasi ve bu sıralamadan beş sayılı özetleme tablosu çıkarılmasıdır; yani şu tablo verilebilir:

            Xmed
        Q1         Q3
   Xmin                Xmaks

2. Kutu grafiği iskeleti, veri minimum ile maksimum değerleri arasında üzeri ölçekli bir çizgiden oluşur; yani Xmin lle Xmaks noktaları arasında ya yatay ya da dikey bir çizgi halindedir.

3. Bu çizgi üzerinde ölçeğe göre bir kutu çizilir. Kutunun en küçük değeri birinci dörttebirlik Q1 ve en büyük değeri üçüncü dörttebirlik Q3 olur. Kutunun uç noktalarına Tukey tarafından "menteşe" adı verilmiştir; yani Q1, ve Q3 kutunun uç noktaları "menteşe" noktalarıdır. Bu kutunun uzunluğu QA = Q3 - Q1 olur ve bu QA verinin çeyrekler açıklığı ölçüsünu gösterir. Dikkat edilirse böylece gösterim bir "kutu" ile dörttebirlikler dışındaki (yani "menteşe" dışındakı) veri değerlerini gösteren "bıyıklar" şekile girmiştir. Bunun için bu grafiğe John Tükey tarafından kutu-ve-bıyıklar grafiği adı verilir.

4. Medyan "kutu"nun içinde ölçeğe göre yerine konulup işaretlenir.

Yorumlanması

Veri setinin niteliklerini bir kutu grafiği görsel şekilde ifade eder:

Alternatif şekiller

Aykırı değer sorunları ve kutu grafiği

Eğer veri sıralaması sonunda ya diğer değerlerden çok küçük veya diğer değerlerden çok büyük uç değer bulunmaktaysa kutu grafiği için bu problem olabilir. Bu çok değişik uç değerler bıyık çizgilerini çok uzun yapıp, geri kalan verilerin birbirine çok yakın olmalarına, hatta birbirleri ile çakışmalarına, neden olabilir. Bu nedenle alternatif kutu grafikleri kullanılabilir ve bu alternatifle uç noktalarının minimum ve maksimum veri değerlerinden diğer değerler olmasına dayanır. Şu alternatifler kullanılmıştır:

Bu şekillerde değişik uç noktası kullanıldığı zaman aykırı değerler özel olarak çizginin dışında, çok kere ölçeğe uymadan, birer nokta (veya boş nokta veya küçük yıldız veya *) halinde gösterilmeleri tavsiye edilmektedir.

Çentikli kutu grafiği

Bu halde kutu grafiğinde (çok kere kutu içinde medyan noktasının hemen yanında) bir veri aritmetik ortalama noktası konulmakta ile %95 (hatta %99) güven aralığı alt ve üst sınırları da birer "çentik (notch)" olarak çizgi üzerine konulmaktadır. Bu yaklaşım ile bir betimsel istatistik gösterim aracı olan kutu grafiği üzerine bir çıkarımsal istatistik (yani güven aralığı) eklenmiş olmakta ve kutu grafiğinin temelden karakteri değiştirilmektedir. Bir "çentikli kutu grafiği" çok kere bir çeşit çıkarımsal analiz aracı olarak aykırı değerlerin tanımlanması için kullanılmaktadır. Bazen kutu uçlarından çentiklere kadar "kalın bıyıklar" çizilmektedir.

Diğer yaklaşımlar

Kutu grafiğinin çeşitli diğer alternatifleri de bulunmaktadır ve bunlar burada hiç kritik görmeden şöyle sıralanabilir:

Örnekler

Ör.1./ İki örneklem veri seti için şu "Beş sayılı özetleme tablosu" verilmiş ve şu iki yatay "kutu grafiği" çizilmiştir:

Örneklem 1 (üstte) : Xmin=1 , Q1= 7, Xmed= 9 , Q3 = 12 , Xmaks = 16.
Örneklem 2 (altta) : Xmin=1 , Q1= 3 , Xmed= 7 , Q3 = 12 , Xmaks = 16.

Ör.2./ Bir tüketim malı için yapılan yarışmaya cevap kuponu gönderenlerin yaşları şöyledir:

23, 21, 10, 15, 12, 15, 39, 17, 21, 30, 18, 20

Bu veri setinin en küçükten en büyüğe sıralanması şöyle elde edilir:

10, 12, 15, 15, 17, 18, 20, 21, 21, 23, 30, 39

"Beş sayılı özetleme tablosu" şöyle bulunur:

            19
        15        22
   10               39

Şu yatay kutu grafiği çizilmiştir:

      +---+--+
  ----|   +  |--------        *
      +---+--+

-+----+----+----+----+----+----+- Yaş
10   15   20   25   30   35   40

Not: 39 tam bir "aykırı değer" olduğu için tek başına bir nokta halinde (*) ile gösterilir.

Kaynakça

  1. "Beş sayılı özetleme tablosu" minimum. birinci dörttebirlik, medyan (ortanca), üçüncü dörttebirlik ve maksimum değerlerinin ya bir sıra halinde ya da medyan en üstte ortada, dörttebirlikler ikinci satırda medyan yanlarında ve manimum ve maximum üçüncü satırda en dışarıda yazılarak elde edilen tablodur.

Ayrıca bakınız

Dış kaynaklar


This article is issued from Vikipedi - version of the 3/6/2016. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.