İstatistik Bilmeyenler İçin İstatistik Terimleri-2

Burak Doğrul
6 min readMar 19, 2021

Serinin ilk yazısında ana kütle, örneklem, gözlem birimi, frekans, değişken, değişken türleri ve merkezi eğilim ölçüleri gibi kavramları örneklerle görmüştük.

Daha önce okuma fırsatı olmayanlar aşağıdaki linkten okuyabilirler.

https://burakdogrul.medium.com/i%CC%87statistik-bilmeyenler-i%CC%87%C3%A7in-temel-i%CC%87statistik-terimleri-1-5271fa06446a

Serinin ikinci yazısında değişim aralığı, standart sapma, varyans, çarpıklık, basıklık, korelasyon, kovaryans ve güven aralığı kavramlarını inceleyeceğiz.

Dağılım Ölçüleri ( Measures of Dispersion )

Değişim Aralığı ( Range )

Veri setinde bir değişkendeki en büyük değer ile en küçük değer arasındaki farka denir. Çok sık kullanılan bir terim değildir. Bize veri hakkında çok fazla bilgi vermez ama verinin genişliği hakkında bilgi edinmemizi sağlar. Aşağıdaki gibi 10 kişilik bir grubun yaşlarının elimizde olduğunu varsayalım.

Değişim Aralığı: En büyük değer — En küçük değer = 76–19 = 57’dir.

Standart Sapma ( Standard Deviation )

Bir veri setindeki verilerin ortalamalardan olan sapmalarının karelerinin aritmetik ortalamasının kareköküdür. Aynı zamanda varyansın kareköküdür. En güvenilir değişim ölçüsü olduğunu söylemek yanlış olmaz sanırım. Evet tanımı biraz karışık görünüyor olabilir o yüzden formülüne bakalım.

Aslında bu kadar basit. Bir de hemen orijinal formüle bakalım. Burada dikkat etmemiz gereken popülasyon ve örneklem için standart sapmanın farklı gösterimleri olduğu ve örneklem için gözlem sayısı yerine gözlem sayısının bir eksiği olan serbestlik derecesini kullanıyor olmamız.

Popülasyon için formül:

σ : Popülasyon standart sapması

Xi: i. gözlemdeki değer

μ: İlgili değişkenin aritmetik ortalaması

N: Gözlem sayısı

Örneklem için formül:

s = Örneklemin standart sapması

x = Değişkendeki değerler

x̄= Örneklemin ilgili değişkendeki ortalaması

N-1 = Serbestlik derecesi

Standart sapma ne kadar büyük olursa ölçülen özelliğin yayılımı o kadar geniş olur. Yayılımın geniş olması grubun heterojen yapıya sahip olduğunu gösterir. Standart sapmayı tek başına yorum yapmak için kullanamayız. Aritmetik ortalama ile beraber kullanıldığında daha detaylı bilgi verir.

Şimdi değişim aralığında kullandığımız 10 kişinin yaşlarını örnek olarak kullanalım. Bu 10 kişinin 100 kişilik bir popülasyondan rastgele çekildiğini varsayalım.

Varyans ( Variance )

Standart sapmanın karesidir yani verilerin ortalamaladan olan sapmalarının karelerinin aritmetik ortalamasıdır.

Popülasyon için formül:

σ²: Popülasyon varyansı

x= Değişkendeki değerler

μ: İlgili değişkenin aritmetik ortalaması

N = Gözlem sayısı

Örneklem için formül:

s = Örneklem varyansı

× = Değişkendeki değerler

x̄= Örneklemin ilgili değişkendeki ortalaması

N-1 = Serbestlik derecesi

Aynı örnekle devam edelim. Aslında yapacağımız tek şey standart sapmanın karesini almak ama aynı adımları tekrar yapalım.

Çarpıklık ( Skewness )

Gerçek değerli bir rastgele değişkenin olasılık dağılımının asimetrisinin bir ölçüsüdür. Verilerin çarpıklığı, bu miktarların birbiriyle nasıl ilişkili olduğuna göre belirlenebilir. Her veri dağılımı simetrik değildir. Sağa çarpık veya sola çarpık olabilir.

Çarpıklık formülü:

Bir yöntem daha vardır bu da literatürde “Pearson’s Coefficient of Skewness” olarak geçer. Pearson’s Coefficient of Skewness formülü ortalamadan medyan değeri çıkartılarak 3 ile çarpılır ve daha sonra standart sapmaya bölünür:

Bir dağılımda ortalama ve ortanca ayrı ayrı noktalar üzerinde ise dağılım çarpıktır. Simetrik dağılıma ait çarpıklık katsayısı sıfırdır. Çarpıklık yoktur yani normal dağılımlıdır. Çarpıklık katsayısının sıfırdan küçük olması çarpıklığın negatif çarpıklık olduğunu, sıfırdan büyük olması ise pozitif doğru olduğunu gösterir.

Basıklık ( Kurtosis )

Dağılımın genişliği yorumlanmak istenirse, basıklık katsayısı kullanılır. Simetrik dağılıma ait basıklık katsayısı değeri sıfırdır. Yani dağılımın standart normal dağılıma uygun olduğunu gösterir. Basıklık katsayısının sıfırdan küçük olması dağılımın basık olduğunu, basıklık katsayısının sıfırdan büyük olması dağılımın sivri olduğunu gösterir.

Formülde dikkat edilmesi gereken nokta 3 ile çıkarma yapmamızdır. Bunun nedeni aslında dikkat ettiyseniz değerlerin 4.kuvveti alınmasındandır. 4.kuvvetini aldığımız hiçbir değer negatif olmaz. Bunu bir düzeltme sayısı olarak düşünebiliriz. 3 değerini çıkarmadan önceki değer tam olarak 3 olduğunda verinin basıklığı normal dağılıma uygun olduğu görülür. Bu nedenle veriden 3 çıkarılarak normal dağılıma yakınsayan durumun 0 değerinde gerçekleşmesi sağlanır.

Korelasyon ( Correlation )

Değişkenler arasındaki ilişkinin derecesini gösterir. Doğrusal bir ilişki Pearson momentler çarpımı veya Spearman sıra farkları korelasyon teknikleri ile ölçülür.

1 ) Pearson momentler çarpımı katsayısı (r):

En az eşit aralıklı ölçek düzeyinde ölçülen iki sürekli değişken arasındaki doğrusal ilişkinin derecesinin belirlenmesinde kullanılır.

Korelasyon katsayısı -1 ile +1 arasında değerler alır.

• r= -1 ise tam negatif doğrusal bir ilişki vardır.

• r= +1 ise tam pozitif doğrusal bir ilişki vardır.

• r= 0 ise iki değişken arasında ilişki yoktur.

r = 0.00 → ilişki yok

0.01 <= r <= 0.29 → düşük düzeyde ilişki

0.30<= r <= 0.70 → orta düzeyde ilişki

0.71<= r <= 0.99 → yüksek düzeyde ilişki

r= 1.00 →mükemmel ilişki

Formülü:

2) Spearman Brown Sıra Farkları Korelasyon Katsayısı (rho, rs)

Sıralı puanlar kullanılarak ölçülen iki değişken arasındaki doğrusal ilişkiyi açıklar. Eşit aralıklı ya da eşit oran düzeyindeki ölçümler sıralı ölçeğe dönüştürülerek analiz edilmesi gerektiğinde de ölçümler sıralı ölçeğe dönüştürülerek uygulanabilir.

Formülü:

Kovaryans ( Covariance )

İki değişkenin birlikte değişme derecesini gösteren bir istatistiktir. İki değişkenin aynı objelere ait değerlerinin bu değişkenlere ait aritmetik ortalamadan farklarının çarpımlarının aritmetik ortalamasıdır.

Popülasyon için formül:

Örneklem için formül:

Güven aralığı ( Confidence Interval )

Fonksiyonları tanımlanan örnekleme dağılımlarından yararlanarak evrenin bilinmeyen bir parametresini belirli bir güvenirlik derecesi ile (genellikle 0.95 ve 0.99 kullanılır) içinde bulunduğu aralık, güven aralığı olarak tanımlanır.

Kullanılan formüller:

Aşağıda gördüğünüz grafikteki gibi normal dağılımda ortalamadan 1 standart sapma sağa ve sola gittiğimizde değerlerin %68’ini, 2 standart sapma gittiğimizde %95’ini, 3 standart sapma gittiğimizde %99’unu içine alırız.

Kullanacağınız birçok programda %95 değeri ön tanımlı olarak gelir. Literatürde en çok kullanılan değerdir. Aynı popülasyondan çekilmiş 100 farklı örneklem ile işlem tekrarlanırsa 95’inde belirlenen bu iki değer arasında olur diye yorumlanır.

Okuduğunuz için teşekkür ederim. Bir sonraki yazıda görüşmek üzere.

Kaynaklar:

http://istatistiknotlarim.blogspot.com/2012/04/istatistik-terimler-sozlugu.html

https://en.wikipedia.org/wiki/Skewness

https://en.wikipedia.org/wiki/Standard_deviation

https://en.wikipedia.org/wiki/Variance

https://en.wikipedia.org/wiki/Kurtosis

https://acikders.ankara.edu.tr/pluginfile.php/169658/mod_resource/content/0/8_KORELASYON%20II.pdf

--

--