Basit İstatistik Bilgileri

Yunus Emre Demir
4 min readAug 13, 2020

--

Population: 85 milyon seçmen

Sample: 2.500 kişi (bunlar 85 milyonu temsil eder.) Yansız, temsil kabiliyeti olan.

Observation Unit: Gözlem birimi, her bir bireye/satıra karşılık gelir.

Scales of measurement (Ölçek birimleri) :

a. Sayısal:

  1. Aralık: Veri değerinin başlangıç noktası ’-’ değerlerden başlıyorsa.
  2. Oran: Veri değerinin başlangıç noktası 0 ile başlıyorsa. (alt sınır sıfır ise)

b. Kategorik

  1. Nominal: Sınıflar arası fark yoksa. Kadın erkek gibi
  2. Ordinal: Sınıflar arası fark varsa: Tğm. < Yzb. < Bnb. < Amiral veya ilkokul < lise < Üni. Gibi

Mean (Ortalama): Aritmetik ortalamaya denir. Dizideki tüm elemanların toplamının dizi eleman sayısına bölümüyle elde edilir.

Mean (Ortalama)

Medyan (Ortanca değer): Sıralı olarak verilen sayı dizindeki ortanca değere denir. Dizi tek elemanlı ise ortanca değer(5 elemanlı bir dizide 3. terim). Eğer dizi çift elemanlı ise ortadaki iki değerin ortalaması alınır. Formülü (n+1)/2’dir.

Medyan (n=9, tek sayı)

9 elemanlı bu dizi için MEDYAN : (n+1)/2 = (9+1)/2 = 5. terim yani “60” sayısıdır.

Medyan (n=10, çift sayı)

10 elemanlı bu dizi için MEDYAN değeri : (n+1)/2 = (10+1)/2 = 5.5 olduğu için 5. Ve 6. terimin toplanıp ikiye bölümünden elde edilen sayı medyan’dır. 5. Terim: 60 ve 6. Terim: 70 ise (60+70)/2 = 65 Medyan’dır.

Not: Dağılım aritmetiksel ise Mean değilse Medyana bakmak daha iyi olur.

Medyan bilgisinin önemi (60)

Bu dizide Mean=615 medyan ise 60'tır. Medyan diziyi daha çok temsil etmektedir. Çünkü dizi büyük oranda 60 çevresinde hareket etmiş ve 5000 sayısı dizideki mean’i(aritmetik ortalamayı( yükselten ve diziyi temsil etmeyen istisnai bir veri gibi durmaktadır.

Not 2: Medyan, Mean’e yakınsa dağılım homojen demektir. (düzgün dağılmış yani 3 5 7 9 11 gibi güzel bir diziymiş işte 😊)

Mod: En çok tekrar eden değerdir. Aşağıdaki dizide en çok tekrar eden elemanın 20 olduğu görülmektedir. Dolayısıyla mod: 20'dir.

Mod (20)

Quartiles (Kartiller): Diziyi 3 noktadan(Q1, Q2, Q3) 4 eşit parçaya bölerek oluşturulur. Serinin merkezi eğilimi hakkında bilgi almak için kullanılır.

Quartiles

7 elemanlı dizide

  • Q1 = 1/4*(n+1). Terim = 1/4*(8)= 2. terim yani 30
  • Q2 = 1/2*(n+1). Terim = 1/2*(8)= 4. terim yani 50 veya Q3-Q1. terim 6–2 =4. terim.
  • Q3 = 3/4*(n+1). Terim = 3/4*(8)= 6. terim yani 70 tir.

Dağılım ölçüleri:

  1. Range : Max Value - Min Value
Range = 80–20 = 60

2. Standart Derivation(Standart sapma) : Ortalamadan olan sapmanın genel bir ölçüsüdür. Ortalamadan olan sapmaların ortalamasıdır. 😊

Standart Sapma (28.72)

3. Variance: Standart sapmanın karesidir.

Variance

Skewness(çarpıklık): Mean = Medyan olduğunda düzgün/homojen dağılımlı bir dizi olduğunu anlarız demiştik. Peki Mean ve Medyan arasında fark varsa bu dizinin çarpıklığını nasıl buluruz? Aşağıdaki formül yardımıyla -1 ile 1 arasında bir çarpıklık değeri buluruz. Bu değer 1’e ne kadar yakınsa o kadar sağdan çarpık ve pozitif çarpık deriz. Bu değerin -1’e olan yakınlığı nispetinde soldan çarpık ve negatif çarpıktır.

Mean=74, Medyan=65, Standart Sapma=48,68

Yukarıdaki dizi için: Mean=74, Medyan=65, Standart Sapma=48,68'dir. Skewness(çarpıklık) değeri ise aşağıdaki gibidir.

Kurtosis (Basıklık): Şeklimiz basık mı, sivri mi veya normal mi? sorusunun cevabını sayılar vasıtasıyla da öğrenebiliriz. Eğer Kurtosis = 3 ise standart/normaldir. Eğer < 3 ise sivri, > 3 ise basıktır.

Kurtosis (Basıklık)
Kurtosis (Basıklık) Formülü

Yukarıdaki dizi için m4 = 1208625’dir Standart sapması ise 28,72 olduğuna göre s⁴ =680,358.38

m4/s⁴ = 1208625/680358 = 1,77'dir. 3'ten küçük olduğu için dağılım basıktır.

Not: Bu bilgiler Mustafa Vahit Keskin’in Udemy Veri Okuryazarlığı eğitimininden özet çıkartılmıştır.

https://www.udemy.com/course/python-egitimi/learn/lecture/18282514#questions

--

--