Tek değişkenli istatistik analizleri, verilerin bir değişkene göre incelenerek sonuçlar elde etmenin en temel yöntemidir Veri toplama, analiz, temizleme ve sonuç yorumlama aşamalarını içeren bu yöntemde, verilerin doğru ve güvenilir olması gereklidir Merkezi eğilim ölçüleri olan ortalama, medyan ve mod ile değişkenlik ölçüleri olan varyans, standart sapma, MAD ve IQR gibi ölçüler hesaplanır ve yorumlanır Ayrıca, parametrik ve non-parametrik testler de normal dağılım gösteren ve göstermeyen veri setleri için kullanılmaktadır Veri setinin tamamını anlamak için merkezi eğilim ölçüleri ile birlikte değişkenlik ölçüleri de kullanılmalıdır

Tek değişkenli istatistik analizleri, istatistiksel verilerin en temel analiz yöntemidir. Bu analiz yöntemi, bir değişkenin özelliklerini inceleyerek çeşitli sonuçlar elde eder. Bu sonuçlar, veri toplama, veri analizi, veri temizleme ve sonuçların yorumlanması aşamalarını içerir.
Veri toplayarak, analiz için doğru ve güvenilir veriler elde etmek gerekir. Veri toplamanın nasıl yapılacağı, ne kadar olması gerektiği ve verinin nasıl temizleneceği, veri hazırlama aşamasında ele alınır.
Merkezi eğilim ölçüleri, tek değişkenli veri setlerindeki en yaygın istatistiksel ölçülerdir. Ortalama, medyan ve mod gibi ölçülerin nasıl hesaplandığı ve yorumlandığı, merkezi eğilim ölçüleri açısından incelenir.
Değişkenlik ölçüleri ise, veri setlerindeki değişkenliği ölçmek için kullanılır. Varyans, standart sapma, mad ve iqr gibi değişkenlik ölçülerinin hesaplanması ve kullanımı, değişkenlik ölçüleri açısından ele alınır.
Tek değişkenli veri setlerinin grafiksel olarak gösterilmesi, verilerin daha iyi anlaşılmasına yardımcı olur. Histogram, kutu grafiği ve olasılık yoğunluk grafiği gibi grafiklerin nasıl çizileceği ve yorumlanacağı, grafiksel gösterimler aşamasında ele alınır.
Parametrik testler, veri setleri normal dağılım gösterdiğinde kullanılan testlerdir. T-test ve Anova gibi parametrik testlerin nasıl yapılacağı ve sonuçların nasıl yorumlanacağı, parametrik testler açısından incelenir.
Non-parametrik testler ise, veri setlerinin normal dağılım göstermediği durumlarda kullanılan testlerdir. Wilcoxon Rank İşaret testi ve Kruskal-Wallis testi gibi non-parametrik testlerin nasıl yapılacağı ve sonuçların nasıl yorumlanacağı, non-parametrik testler açısından ele alınır.
Veri Toplama ve Hazırlama
Tek değişkenli istatistik analizleri için veri toplama ve hazırlama aşaması oldukça önemlidir. Verilerin doğru ve güvenilir olması, analiz sonuçlarının doğru yorumlanması için gereklidir. Veri toplama sürecinde kullanılacak yöntemlerin belirlenmesi ve verinin ne kadar olması gerektiği gibi konular dikkate alınmalıdır.
Ayrıca, verinin temizlenmesi de önemlidir. Veri temizliği, veri setindeki hatalı, eksik veya yanlış verilerin düzeltilmesi veya çıkarılması işlemidir. Veri temizliği yapılmadan yapılan analiz sonuçları yanıltıcı olabilir. Bu nedenle, veri temizleme adımı da veri toplama ve hazırlama sürecinde yer almaktadır.
- Veri toplama sürecinde belirlenmesi gereken yöntemler:
- Anketler
- Gözlem
- Mevcut kaynaklardan veri toplama
- Veri temizliği aşamasında yapılması gereken işlemler:
- Eksik veya hatalı verilerin düzeltilmesi
- Outlier verilerin belirlenmesi ve çıkarılması
- Verinin formatının düzeltilmesi
Merkezi Eğilim Ölçüleri
Merkezi eğilim ölçüleri, veri setlerindeki değerlerin ortalama bir değer çevresinde ne kadar toplandığını ölçen istatistiksel ölçülerdir. Tek değişkenli veri setleri için en yaygın kullanılan merkezi eğilim ölçüleri, ortalama, medyan ve moddur.
Ortalama, bir veri setinin tüm değerlerinin toplanması ve elde edilen toplamın veri setinin eleman sayısına bölünmesiyle hesaplanır. Örneğin, bir sınıftaki öğrencilerin notlarına göre bir ortalama hesaplamak isterseniz, tüm notları toplayarak öğrenci sayısına bölmeniz gerekir.
Medyan, bir veri setindeki değerlerin ortasında yer alan noktadır. Veri setinin sıralanması gereklidir ve ortadaki değer medyan olarak kabul edilir. Eğer veri setinin eleman sayısı çift ise, iki ortadaki sayının aritmetik ortalaması medyan olarak seçilir.
Mod, bir veri setinde en sık tekrar eden değerdir. Mod hesaplanması oldukça basit olup, veri setindeki elemanların sıklık tablosu çıkarılır ve en çok tekrar eden değer mod olarak seçilir.
Bu merkezi eğilim ölçüleri veri setinin yalnızca bir yönüne odaklanarak bilgi sağlarlar. Bu nedenle, veri setinin tamamını anlamak için değişkenlik ölçüleri ile birleştirilerek kullanılmalıdırlar.
Değişkenlik Ölçüleri
Değişkenlik ölçüleri, veri setlerindeki değişkenliği ölçmek için kullanılan istatistiksel ölçülerdir. Varyans, bir veri kümesindeki verilerin ortalamadan ne kadar uzakta olduğunu ölçen bir değişkenlik ölçüsüdür. Standart sapma ise varyansın kareköküdür ve veri setindeki dağılımın genişliğini ölçer. MAD (Mean Absolute Deviation) ise ortalamadan mutlak değerleri alarak, bu değerlerin ortalamasının hesaplanması ve bu değerlerin ortalamasına bölünmesi ile hesaplanır. İQR (Interquartile Range) ise, veri setinin ortanca değerlerini alarak, çeyrekler arası mesafeyi ölçer ve verebileceği en iyi sonuçlardan biridir.
Değişkenlik ölçüleri, özellikle verilerin dağılımını daha iyi anlamak, aykırı değerleri belirlemek veya verilerin değişkenliğini karşılaştırmak için büyük önem taşır. Örneğin, bir veri setinde standart sapma yüksekse, verilerin ortalamadan ne kadar ayrı olduğu anlaşılabilir. Ayrıca, değişkenlik ölçülerinin kullanımı bir karar verme sürecinde de faydalıdır.
Bu ölçümler için hesaplama yapmak zor olabilir, ancak birçok matematiksel yazılım (örneğin Excel) bu hesaplamaları otomatik olarak yapabilir ve sonuçları kullanıcılara sunabilir. Ancak, elde edilen sonuçların yorumlanması için matematiksel bir anlayışa sahip olmak önemlidir.
Varyans | Standart Sapma | MAD | IQR |
---|---|---|---|
Ortalamadan uzaklığın karelerinin ortalaması | Ortalamadan uzaklığın karekökü | Mutlak değerlerin ortalamasından ortalamaya bölünmesi | Çeyrekler arası mesafe |
=VAR(A1:A10) | =STDEV(A1:A10) | =AVERAGE(ABS(A1-AVERAGE(A1:A10)))*1.4826 | =QUARTILE(A1:A10,3)-QUARTILE(A1:A10,1) |
Grafiksel Gösterimler
Grafiksel gösterimler, tek değişkenli veri setlerinin anlaşılmasını kolaylaştıran önemli bir araçtır. Bu bölümde, histogram, kutu grafiği ve olasılık yoğunluk grafiği gibi grafiklerin nasıl hazırlanacağı ve yorumlanacağı konuları ele alınacaktır.
Histogram grafiği, bir veri setinin dağılımını görselleştirmeye yardımcı olur. Veriler belirli aralıkların içerisine yerleştirilir ve her aralıkta kaç verinin bulunduğu gösterilir. Böylece, verilerin nerede yoğunlaştığı ve hangi aralıklarda daha az olduğu kolayca fark edilebilir.
Kutu grafiği ise, veri setinin merkezi eğilim ölçüleri ve değişkenlik ölçüleri ile birlikte gösterilmesini sağlar. Grafiğin üst ve alt çizgileri, veri setinin çeyreklerini belirtirken, kutu, verilerin orta %50'sini temsil eder. Bu grafik, veri setindeki aykırı değerleri de rahatlıkla tespit etmeye yarar.
Olasılık yoğunluk grafiği ise, bir veri setinin olasılık dağılımını görselleştirir. Bu grafikte, verilerin belirli bir aralıkta bulunma olasılıkları eksenler üzerinde gösterilir. Bu sayede, verilerin hangi değerlerde daha yoğun olduğu ve hangi değerlerde daha düşük olduğu rahatlıkla fark edilebilir.
Grafikler, tek değişkenli istatistik analizleri için önemli bir araçtır ve verilerin hızlı bir şekilde anlaşılmasını sağlar. Hem gözle görme açısından hem de sayısal olarak verilerin gösterilmesi açısından büyük bir fayda sağlarlar.
Parametrik Testler
Parametrik testler, normal dağılıma sahip veri setleri için kullanılan istatistiksel testlerdir. Bu testler, örneklemin büyüklüğüne bağlı olarak t veya z testi olarak adlandırılır. T-testi, sınırlı sayıda örnek üzerinde yapılan bir testtir ve eşleştirilmiş veya eşleştirilmemiş iki örneklem arasındaki farkı analiz etmek için kullanılır. Anova, üç veya daha fazla örneklemdeki farklılıkları analiz etmek için kullanılır.
Parametrik test sonuçları, belirlenmiş bir anlamlılık düzeyi (genellikle p <0.05 olarak kabul edilir) üzerinde yorumlanır. Eğer test sonuçları anlamlı ise, örneklem dağılımları arasındaki farkın gerçek olduğu düşünülür. Ayrıca, parametrik testlerin güçleri de belirlenir, yani testin örnek büyüklüğüne, standart sapma oranına ve etki büyüklüğüne bağlı olarak ne kadar doğru sonuçlar verdiği belirlenir.
- T-testi: Eşleştirilmiş ve eşleştirilmemiş iki örneklem arasındaki farkın analizinde kullanılır.
- Anova: Üç veya daha fazla örneklem arasındaki farklılıkların analizinde kullanılır.
Bir örnek olarak, t-testi kullanılarak bir ilacın etkinliği kontrol grubu ile tedavi grubu arasında karşılaştırılabilir. Anova ise, farklı doz seviyelerinin veya farklı tedavi yöntemlerinin etkinliğini karşılaştırmak için kullanılabilir.
Non-Parametrik Testler
Non-parametrik testler, veri setlerinin normal dağılım göstermediği durumlarda kullanılan istatistiksel testlerdir. Bu testler, parametrik testlerin uygun olmadığı durumlarda kullanılır. Non-parametrik testlerin avantajı, veri setindeki aykırı değerlerden ve normal dağılım varsayımının ihlal edilmesinden etkilenmemeleridir.
Wilcoxon Rank İşaret testi, bağımlı iki örneklemin medyanları arasında fark olup olmadığını test etmek için kullanılır. Bu test, çiftler halinde gözlemlenen veriler için uygulanır ve medyanların farkı sıfıra eşit olup olmadığına karar verir. Wilcoxon Rank İşaret testi, bağımlı t-testinin non-parametrik bir alternatifidir.
Kruskal-Wallis testi, bağımsız en az iki örneklem grubunun medyanlarında fark olup olmadığını test etmek için kullanılır. Bu test, grupların normal dağılım göstermediği durumlarda kullanılır ve ANOVA testinin non-parametrik bir alternatifidir. Kruskal-Wallis testi, grupların medyanları arasında farklılık olup olmadığına karar verir.