NumPy ve Pandas ile temel veri analizi teknikleri öğrenmek isteyen herkes için kapsamlı bir rehber! Bu eğitim, Python programlama dili kullanarak veri analizi yapmanın en önemli araçlarını öğrenmenize yardımcı olacak Sayısal veriler üzerinde istatistiksel analizler yapıp, pandas veri yapısında veri işlemeye hakim olmayı öğreneceksiniz Yatırımcılar, araştırmacılar, veri analistleri için kaçırılmayacak bir kaynak

NumPy ve Pandas, veri analizi alanında çok kullanılan iki popüler kütüphanedir. Bu makale, veri analizine yeni başlayan okuyucuların temel veri analizi tekniklerini öğrenmeleri için hazırlanmıştır. Makalede, veri doğrulama, veri düzenleme, veri filtreleme, veri görselleştirme ve veri manipülasyonu gibi temel teknikler yer almaktadır. Okuyucular, NumPy ve Pandas kullanarak nasıl veri analizi yapabileceklerini öğrenerek, verileri açıklamak ve veriler üzerinde doğru kararlar vermek için gerekli olan temel becerileri kazanacaklar.
NumPy, birçok bilimsel hesaplama için kullanılan açık kaynaklı bir Python kütüphanesidir. Çok boyutlu dizilerle işlem yapmanızı sağlayarak, sayısal işlemlerde hız ve verimlilik sağlar. Pandas ise veri manipülasyonu ve analizi için kullanılan bir Python kütüphanesidir. Veri yükleme, veri gruplama, veri birleştirme, farklı veri tipleri ve veri dönüşümleri hakkında bilgi edinebilirsiniz.
Bu makalede, veri doğrulama, veri düzenleme, veri filtreleme, veri görselleştirme ve veri manipülasyonu ile ilgili temel teknikleri öğreneceksiniz. Veri doğrulama, verilerin doğru ve tutarlı olup olmadığını kontrol etmek için kullanılan teknikleri içerir. Veri düzenleme, verileri istenen biçimde hazırlama işlemidir. Veri filtreleme, belirli bir kriteri sağlayan verileri seçmek için kullanılır. Veri manipülasyonu ise, veriler üzerinde yapılan değişiklikleri ifade eder.
- Veri doğrulama
- Veri düzenleme
- Veri filtreleme
- Veri görselleştirme
- Veri manipülasyonu
Bu temel teknikler öğrenildikten sonra, veri analizi becerilerinizi daha da geliştirebilirsiniz. NumPy ve Pandas ile verileri güçlü ve verimli bir şekilde manipüle etmenin yanı sıra, bu kütüphaneler aynı zamanda verileri görselleştirerek daha anlamlı bir şekilde yorumlamak ve sonuçlarınızı paylaşmak için de en iyi araçlardan biridir.
Bu makalede öğrendiğiniz bilgiler, verilerinizi anlamak ve analiz etmek için kullanılacak temel araçları verir. Artık verilerinizi daha doğru ve etkili bir şekilde analiz edebilirsiniz.
NumPy Nedir?
NumPy, bilimsel hesaplama için kullanılan bir Python kütüphanesidir. NumPy, temel olarak çok boyutlu diziler üzerinde işlem yapmak için kullanılır. NumPy'nin en önemli avantajlarından biri, hızlı ve verimli bir şekilde büyük boyutlu veri setlerini işleyebilmesidir.
NumPy kullanarak, basit aritmetik işlemlerden karmaşık matematiksel işlemlere kadar birçok işlemi yapabilirsiniz. NumPy'de veriler, ndarray (n-dimensional array) adı verilen çok boyutlu diziler olarak depolanır. Bu, farklı boyutlardaki veri tiplerinin tek bir yapıda tutulmasını sağlar.
NumPy ayrıca, tablo verileriyle çalışmak için kullanılan veri yapılarına da sahiptir. NumPy birçok farklı veri tipi kullanabilir, ancak çoğu zaman float, int veya string veri türleri kullanılır. NumPy'nin işlevleri ve metodları, verileri manipüle etmek, matematik işlemleri yapmak ve dizileri oluşturmak için kullanılır.
Sonuç olarak, NumPy, bilimsel hesaplama ve veri işleme için vazgeçilmez bir kütüphanedir. Bu kütüphane kullanarak, büyük boyutlu veri setlerini hızlı ve verimli bir şekilde işleyebilirsiniz. Ayrıca, verileri farklı boyutlardaki dizilerde depolayarak, farklı veri tiplerinin tek bir yapıda tutulmasını sağlar.
Pandas Nedir?
Pandas, bilimsel hesaplama ve veri analizi için kullanılan açık kaynaklı bir Python kütüphanesidir. Veri manipülasyonu ve analizi için kullanılan bu kütüphane, özellikle finans, ekonomi, sosyal bilimler, mühendislik ve bilimsel araştırmalarda popülerdir.
Pandas'ın temel fonksiyonları arasında, veri yükleme, veri gruplama, veri birleştirme, farklı veri tipleri ve veri dönüşümleri bulunmaktadır. Veri yükleme işlemi, farklı veri kaynaklarından veri okumak için kullanılır. Veri gruplama, belirli bir kriter veya kategorilere göre verileri gruplamak için kullanılır.
Veri birleştirme, iki veya daha fazla veri kümesini birleştirerek daha büyük bir veri kümesi elde etmek için kullanılır. Pandas, farklı veri tiplerine izin verir ve veri dönüştürme işlemi için birçok özellik sunar. Bu özellikler, verileri farklı sütunlarda veya satırlarda yeniden şekillendirir ve eksik verileri doldurmak için kullanılabilir.
Pandas, verilerin analiz edilmesi ve işlenmesi için birçok fonksiyon sunar. Bu fonksiyonlar sayesinde, verileri yapılandırılabilir, filtreleyebilir, sıralayabilir, gruplayabilir ve hatta kolayca görselleştirebilirsiniz. Aynı zamanda, büyük veri kümeleriyle çalışırken de oldukça verimli çalışır.
Veri Doğrulama
Veri analizinde verilerin doğru ve tutarlı olması son derece önemlidir. Bu nedenle, veri doğrulama teknikleri veri analizinin temel unsurlarından biridir. Veri doğrulama, verilerin doğruluğunu kontrol etmek ve hataları tespit etmek için kullanılan bir tekniktir. Bu bölümde, veri doğrulama için kullanılan üç temel teknik olan veri türü doğrulama, eksik veri kontrolü ve benzersiz veri kontrolü hakkında bilgi edineceksiniz.
- Veri Türü Doğrulama: Verilerin doğru türde olması analiz sürecinde doğru sonuçlar elde etmenizi sağlar. Pandas kütüphanesi ile birlikte gelir ve verileri birçok farklı veri tipine dönüştürebilirsiniz. Veri türü doğrulama teknikleri, verilerin doğru türde yapılandırıldığını kontrol etmek için kullanılır.
- Eksik Veri Kontrolü: Veri setlerinde eksik veriler sıkça karşılaşılan bir durumdur ve bu veriler çözümlenirken dikkate alınması gerekir. Eksik verileri kontrol etmek için kullanılan teknikler, verilerdeki eksik değerleri tespit etmenizi ve bunları doğru şekilde ele almanızı sağlar.
- Benzersiz Veri Kontrolü: Benzersiz veriler, bir veri kümesindeki farklı veri örneklerini ifade etmek için kullanılır. Benzersiz veri kontrolü, veri setindeki benzersiz verileri tespit etmek için kullanılan bir tekniktir. Verileri doğru şekilde analiz etmek ve sonuçları tutarlı hale getirmek için bu teknik önemlidir.
Bu teknikler, verilerin doğruluğunu kontrol etmek ve hataları tespit etmek için kullanılır. Yanlış veya eksik veriler, analiz sonuçlarını yanıltabilir veya yanlış sonuçlar elde etmenize neden olabilir. Bu nedenle doğru veri doğrulama tekniklerini kullanarak verileri doğrulamak ve analiz sürecinde doğru sonuçlar elde etmek son derece önemlidir.
Veri Türü Doğrulama
Verilerin doğru türde yapılandırıldığından emin olmak, veri analizinde doğru sonuçlara ulaşmak için önemlidir. Pandas kütüphanesi, veri türü doğrulama teknikleriyle verilerin türlerini kontrol etmek için kullanılır.
Veri türü doğrulama, verilerin doğru türde olduğunu belirlemek için kullanılan bir tekniktir. Pandas kütüphanesi, verileri farklı sınıflara ayırmak için kullanılır ve bu sınıfların her biri için farklı bir veri türü doğrulama tekniği bulunur.
Veri Türü | Doğrulama Tekniği |
---|---|
Sayısal Veriler | astype(), to_numeric() |
Tarih/Saat Verileri | to_datetime() |
Kategorik Veriler | astype(), astype('category') |
Metin Verileri | astype('string') |
Sayısal verilerin doğruluğunu kontrol etmek için, astype() ve to_numeric() yöntemleri kullanılır. Tarih/saat verileri için to_datetime() kullanılır. Kategorik verilerin doğruluğunu kontrol etmek için ise astype() ve astype('category') yöntemleri kullanılır. Metin verileri ise astype('string') ile kontrol edilir.
Veri türü doğrulama işlemi genellikle verileri yüklemenin ilk aşamasında gerçekleştirilir. Böylece verilerin doğru türde olduğundan emin olunur ve daha sonra veri manipülasyonu işlemleri yapılır.
Eksik Veri Kontrolü
Veri analizinde, eksik veriler sıkça karşılaşılan bir sorundur. Eksik veriler, bir veri kümesindeki belirli bir öğenin mevcut olmadığı veya bilinmediği durumlarda ortaya çıkar. Eksik verileri kontrol etmek, doğru sonuçlar elde etmek için son derece önemlidir.
Pandas, eksik verileri yönetmek için kullanılan birkaç yöntem sağlar. Bunların başında, ```isnull()``` fonksiyonu ile veri kümesindeki eksik verileri tespit etmek gelir. Bu yöntem, veri setindeki her bir öğenin eksik olup olmadığını kontrol eder.
Ayrıca, eksik verileri ```fillna()``` fonksiyonu ile doldurabilir ve ```dropna()``` fonksiyonu ile eksik verileri direk olarak veri kümesinden çıkarabilirsiniz. Bu yöntemler, veri setindeki eksik verilerin analizinde son derece etkilidir.
```NaN``` (Not a Number) değeri de eksik verilerin belirtilmesinde sıkça kullanılan bir yöntemdir. Bu değer, Pandas tarafından varsayılan olarak tanınır ve ```isnull()``` fonksiyonu ile kontrol edilebilir.
Eksik verileri yönetmek, veri analizindeki doğru sonuçların elde edilmesi için son derece önemlidir. Pandas kütüphanesi ile eksik verileri kontrol etmek, düzenlemek veya çıkarmak oldukça kolaydır.
Benzersiz Veri Kontrolü
Bir veri kümesindeki benzersiz veriler, farklı veri örneklerini ifade etmek için kullanılır. Örneğin, bir şirketin müşteri verilerinde aynı isme sahip farklı kişiler bulunabilir ve bunları ayrı ayrı ele almak gerekebilir. Pandas ile benzersiz verileri kontrol etmek oldukça kolaydır.
Bir veri çerçevesinde birden fazla sütun seçerek benzersiz değerleri bulmak mümkündür. Bunun için drop_duplicates
fonksiyonu kullanılır. Bu fonksiyon varsayılan olarak tüm sütunlardaki benzersiz değerleri seçer. İlgili sütunlar belirtmek istiyorsanız, subset
parametresini kullanarak sütunları belirleyebilirsiniz. Örneğin:
import pandas as pd# Veri çerçevesini oluşturdf = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'bar'], 'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two'], 'C': [1, 1, 2, 2, 3, 3, 4]})# Benzersiz değerleri bulmak içinunique_values = df.drop_duplicates(subset=['A', 'B'])
Yukarıdaki örnekte, 'A' ve 'B' sütunlarındaki benzersiz değerler 'unique_values' değişkenine atılır. Sonuç olarak, "foo-one" ve "bar-two" satırları benzersiz olduğu için onları seçer ve diğer benzer satırları atar.
Bunun yanı sıra, belirli bir sütunda kaç benzersiz değer olduğunu bulmak için nunique
fonksiyonu da kullanılabilir. Örneğin:
import pandas as pd# Veri çerçevesini oluşturdf = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'bar'], 'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two'], 'C': [1, 1, 2, 2, 3, 3, 4]})# 'A' sütununda kaç benzersiz değer olduğunu bulmanum_unique_values = df['A'].nunique()
Yukarıdaki örnekte, 'A' sütununda kaç benzersiz değer olduğu 'num_unique_values' değişkenine atılıyor. Sonuç olarak, 'A' sütununda iki farklı benzersiz değer ("foo" ve "bar") olduğu bulgulanır.
Veri Düzenleme ve Filtreleme
Veri Düzenleme ve Filtreleme, veri analizi sürecinde en önemli aşamalardandır. Bu aşamada, verilerin doğru ve anlamlı bir şekilde düzenlenmesi, ihtiyaç duyulan verilerin filtrelenerek seçilmesi ve verilerin istenilen sıraya göre dizilmesi amaçlanır.
Veri Filtreleme ile belirli bir kriteri karşılayan veriler seçilir ve diğer veriler dışarıda bırakılır. Pandas kütüphanesi bu işlemin gerçekleştirilmesinde oldukça kullanışlıdır. Örneğin, bir veri kümesinde sadece belli bir bölgeye ait olan verileri seçmek için aşağıdaki kod kullanılabilir:
Kod: | data[data["Bölge"]=="İstanbul"] |
---|---|
Açıklama: | data veri kümesindeki "Bölge" sütunu İstanbul olan verileri seçer. |
Veri Sıralama ise verilerin belirli bir sıraya göre dizilmesini sağlar. İstenilen sütuna göre veriler artan veya azalan şekilde sıralanabilir. Aşağıdaki kod ile örneğin bir veri kümesindeki "Yaş" sütunu için artan sıralama yapılabilir:
Kod: | data.sort_values("Yaş") |
---|---|
Açıklama: | data veri kümesindeki "Yaş" sütunu için artan sıralama yapılır. |
Veri Kesişimi ve Birleştirme, farklı veri kümesi veya sütunlar arasında kesişimlerin veya birleşimlerin bulunmasını sağlar. Pandas kütüphanesi ile bu işlemler kolaylıkla yapılabilir. Örneğin, iki farklı veri kümesinin "id" sütunlarının kesişimi aşağıdaki kod ile elde edilebilir:
Kod: | pd.merge(df1, df2, on="id") |
---|---|
Açıklama: | df1 ve df2 veri kümesindeki "id" sütunlarının kesişimi elde edilir. |
Veri Düzenleme ve Filtreleme, verilerin daha okunaklı hale getirilmesi ve analiz edilebilmesi için oldukça önemlidir. Bu işlemler sayesinde gereksiz veya hatalı veriler elenerek gerçekçi sonuçlar elde edilebilir.
Veri Filtreleme
Veri filtreleme, veri analizinde oldukça önemli bir teknik olan, belirli bir kriteri karşılayan verileri seçmek için kullanılan bir yöntemdir. Bu yöntem sayesinde, veri kümesinde sadece belirli bir özelliği taşıyan veriler seçilerek analizler daha kesin sonuçlar verebilir.
Pandas kütüphanesi, veri filtreleme yapmak için kullanabileceğiniz farklı fonksiyonlar sunar. Bunlar arasında en yaygın kullanılanları loc ve iloc fonksiyonlarıdır. loc fonksiyonu, belirli bir satır ve sütun etiketi ile veriye erişmenizi sağlar. Örneğin, belirli bir sütundaki 10'dan büyük verileri seçmek istediğinizde şöyle bir kod kullanabilirsiniz:
df.loc[df['sütun_adı'] > 10]
Bu kod, sütun_adı etiketi altındaki verilerin 10'dan büyük olanlarını seçecektir. Benzer şekilde, iloc fonksiyonu, sadece belirli bir satır ve sütun indeksi ile erişim sağlar. Örneğin,
df.iloc[3:6, 0:2]
Bu kod, 3-6 arasındaki satırları ve 0-2 arasındaki sütunları seçecektir.
Bu teknikler, veri filtrelemede sıklıkla kullanılan yöntemlerdir ancak Pandas kütüphanesinde daha pek çok farklı fonksiyon mevcuttur. Bu nedenle, veri filtreleme işlemleri sırasında kullanmak istediğiniz fonksiyonları ve parametreleri öğrenerek, veri analiz yöntemlerinizi daha kesin ve doğru hale getirebilirsiniz.
Veri Sıralama
Veri sıralama, veri analizi için önemli bir tekniktir. Verilerin doğru bir şekilde sıralanması, veri kümesinden daha fazla bilgi çıkarmamıza yardımcı olabilir. Pandas, veri sıralama işlemleri için birçok fonksiyon sağlar. Veri dizinlerini veya sütunları belirli bir sıraya göre sıralayabiliriz. Bunun yanı sıra, verileri tek veya birden fazla kritere göre sıralayabiliriz.
Veri sıralama işlemleri için sort_values() fonksiyonu kullanılır. Bu fonksiyon, veri dizinlerini veya sütunlarını belirli bir sıraya göre sıralar. Varsayılan olarak, sıralama işlemi artan sırayla gerçekleştirilir. Ancak, büyükten küçüğe sıralama işlemi de yapılabilir.
Örnek: | df.sort_values('Sütun Adı') |
---|---|
Sütun Adı'na Göre Sıralama: | df.sort_values(by='Sütun Adı') |
Büyükten Küçüğe Sıralama: | df.sort_values(by='Sütun Adı', ascending=False) |
Oluşturduğumuz sıralama işlemleri sonrasında, oluşan sıralama verilerinin analizi için farklı grafikler kullanabiliriz. Örneğin, verilerimizin sütunlarını bir histogram grafiği ile görselleştirebiliriz.
- "hist()" metodu, sütundaki verilerin dağılımını histogram grafiği olarak çizer.
Örnek: | df['Sütun Adı'].plot.hist() |
---|
Verilerimizi farklı kriterlere göre sıralamak ve bu şekilde analiz ederek daha fazla bilgi elde etmek mümkündür. Bu nedenle, Pandas tarafından sağlanan veri sıralama fonksiyonları veri analizi çalışmalarımızda büyük bir önem taşır.
Veri Kesişimi ve Birleşimi
Veri kesişimi ve birleşimi, iki farklı veri kümesinin bir araya getirilmesi anlamına gelir. Pandas, veri kümesi birleştirme işlemlerini gerçekleştirmek için concat()
, merge()
, ve join()
yöntemlerini kullanır.
concat()
yöntemi, veri kümesi birleştirme işlemlerini gerçekleştirmek için kullanılır. Bu yöntem, iki veya daha fazla veri kümesini yan yana birleştirir. Pandas, birleştirme işlemi sırasında belirtilen eksik verileri NaN
(Not a Number) değeri ile doldurur. Örnek olarak, aşağıdaki tablolardan bir tanesindeki sütunlar farklı olsa bile satırları birleştirmeye izin verir:
Tablo A | Kolon 1 | Kolon 2 |
---|---|---|
0 | Veri A1 | Veri A2 |
1 | Veri A3 | Veri A4 |
Tablo B | Kolon 3 | Kolon 4 |
---|---|---|
0 | Veri B1 | Veri B2 |
1 | Veri B3 | Veri B4 |
İki tablonun birleştirilmesi için aşağıdaki kod bloğu kullanılabilir:
import pandas as pdtableA = pd.DataFrame({ 'Kolon 1': ['Veri A1', 'Veri A3'], 'Kolon 2': ['Veri A2', 'Veri A4']})
tableB = pd.DataFrame({ 'Kolon 3': ['Veri B1', 'Veri B3'], 'Kolon 4': ['Veri B2', 'Veri B4']})
# Tabloların birleştirilmesiresult = pd.concat([tableA, tableB], axis=1)
print(result)
merge()
yöntemi, iki farklı veri kümesini belirli bir sütuna göre birleştirmek için kullanılır. Pandas, birleştirme işlemi sırasında belirtilen verileri kullanarak ortak satırları birleştirir. Örnek olarak, aşağıdaki tablolarda sütunlar farklı olsa bile benzersiz bir sütunları vardır:
Tablo A | Kolon 1 | Kolon 2 | Ortak |
---|---|---|---|
0 | Veri A1 | Veri A2 | 1 |
1 | Veri A3 | Veri A4 | 2 |
Tablo B | Kolon 3 | Kolon 4 | Ortak |
---|---|---|---|
0 | Veri B1 | Veri B2 | 1 |
1 | Veri B3 | Veri B4 | 2 |
İki tablonun birleştirilmesi için aşağıdaki kod bloğu kullanılabilir:
import pandas as pdtableA = pd.DataFrame({ 'Kolon 1': ['Veri A1', 'Veri A3'], 'Kolon 2': ['Veri A2', 'Veri A4'], 'Ortak': [1, 2]})
tableB = pd.DataFrame({ 'Kolon 3': ['Veri B1', 'Veri B3'], 'Kolon 4': ['Veri B2', 'Veri B4'], 'Ortak': [1, 2]})
# Tabloların birleştirilmesiresult = pd.merge(tableA, tableB, on='Ortak')
print(result)
join()
yöntemi, veri kümesi birleştirme işlemlerini gerçekleştirmek için kullanılır. Bu yöntem, merge()
yöntemine benzer bir şekilde çalışır ancak bazı farklılıklar vardır. join()
, farklı veri kümesi boyutlarına sahip olan tabloları birleştirir ve eşleştirilmiş olmayan verilerin de dikkate alınması için belirli bir birleştirme yöntemi kullanır. Örnek olarak, aşağıdaki tablolarında eşleştirilmemiş olan sütunları:
Tablo A | Kolon 1 | Kolon 2 |
---|---|---|
0 | Veri A1 | Veri A2 |
1 | Veri A3 | Veri A4 |
2 | Veri A5 | Veri A6 |
Tablo B | Kolon 3 | Kolon 4 |
---|---|---|
0 | Veri B1 | Veri B2 |
1 | Veri B3 | Veri B4 |
Veri Görselleştirme
Verilerin görselleştirilmesi, anlaşılması ve yorumlanması için önemli bir tekniktir. Bu bölümde, verileri görselleştirmek için kullanılan temel teknikler hakkında bilgi edineceksiniz.
Veri Histogramı: Veri histogramı, bir veri kümesindeki değerlerin dağılımını göstermek için kullanılan bir grafiktir. Histogramın x-ekseni, verinin değerlerini ve y-ekseni ise, her değerin kaç kez meydana geldiğini gösterir. Pandas'ın hist()
fonksiyonu ile bir veri kümesinin histogramı kolayca çizilebilir.
Veri Dağılım Grafiği: Veri dağılım grafiği, bir veri kümesindeki değerlerin dağılımını göstermek için kullanılan bir grafiktir. Bunlar genellikle normal dağılıma benzerler ve çoğunlukla yoğunluk çizimleri şeklinde çizilirler. Seaborn kütüphanesi, veri dağılım grafiği çizmek için sıklıkla kullanılır.
Veri Scatter Grafiği: Veri scatter grafiği, iki değişken arasındaki ilişkiyi göstermek için kullanılan bir grafiktir. Bu grafiğin x-ekseni bir değişkeni temsil ederken, y-ekseni diğer değişkeni temsil eder ve her nokta bir veri noktasını temsil eder. Matplotlib kütüphanesi kullanılarak veri scatter grafiği çizimi basit bir şekilde gerçekleştirilebilir.
Veri Box Grafiği: Veri box grafiği, bir veri kümesindeki değerlerin ortanca, çeyreklikler ve aykırı değerler dahil olmak üzere dağılımını göstermek için kullanılan bir grafiktir. Box grafiği, verilerin dağılımını hızlı bir şekilde anlamak için kullanılır. Seaborn kütüphanesi ile bir veri kümesinin box grafiği kolayca çizilebilir.
Tüm bu grafik teknikleri, Pandas ve Matplotlib gibi Python kütüphaneleri kullanılarak kolayca çizilebilir. Veri görselleştirme, verileri analiz etmek için önemli bir araçtır ve verilerin daha iyi anlaşılabilmesine yardımcı olur.
Veri Histogramı
Veri histogramı, bir veri kümesindeki değerlerin dağılımını göstermek için kullanılan bir grafik türüdür. Bir veri kümesindeki verilerin oranlarının ve dağılımının anlaşılması için sıklık dağılım grafiği olarak da adlandırılır. Veri histogramı, x ekseni boyunca değişkenin değerlerinin aralıkları ve y ekseni boyunca değişkenin bu aralıklardaki frekansını gösterir.
Matplotlib, Python dilinde sıklık dağılım grafiği çizmek için en yaygın kullanılan kütüphane olarak bilinmektedir. Veri histogramı çizmek için, öncelikle Matplotlib kütüphanesinin yüklü olması gerekmektedir. Daha sonra, histogram çizmek istediğimiz veri kümesini bir numpy dizisi olarak oluşturmalıyız.
- Matplotlib'ın histogram fonksiyonunu kullanarak veri histogramını çizebiliriz.
- xlabel() fonksiyonuyla x ekseni etiketini belirleyebiliriz.
- ylabel() fonksiyonuyla y ekseni etiketini belirleyebiliriz.
- title() fonksiyonuyla grafiğe bir başlık verebiliriz.
Aşağıdaki örnekte, Matplotlib ile bir veri histogramının nasıl çizileceği gösterilmektedir:
Kod | Çıktı |
---|---|
| ![]() |
Görüldüğü gibi, bu kodlarla veri kümesinin histogramı çizilmiş ve değişken değerleri ile frekansları grafiğe aktarılmıştır.
Veri Dağılım Grafiği
Veri dağılım grafiği, bir veri kümesindeki değerlerin dağılımını göstermek için kullanılan bir grafiğe verilen isimdir. Bu grafiğin amacı, bir veri kümesinde yer alan sayısal değerlerin dağılıp dağılmadığına ve ne ölçüde değiştiğine dair fikir vermektedir. Veri dağılım grafiği sayesinde veri kümesindeki verilerin yoğunlaşması ve seyrelmesi görülebilir.
Veri dağılım grafiğini görselleştirmede kullanılan kütüphanelerden birisi de Seaborn'dır. Seaborn, Python programlama dili için veri görselleştirme açısından oldukça kullanışlı bir kütüphanedir. Seaborn ile veri dağılım grafiği çizmek oldukça kolaydır. Bu işlem için Seaborn'ün distplot()
fonksiyonu kullanılır. İlk parametresine veri kümesini, ikinci parametresine grafiğin adını ve diğer parametreleri de grafiği görselleştirmek için kullanılır. Örneğin;
import seaborn as snsimport matplotlib.pyplot as plt# Veri kümesi oluşturalımveriler = [10,20,30,25,35,40,50,45,55,60,70,80,90,100]# Seaborn kütüphanesi ile dağılım grafiğini çizelimsns.displot(veriler, kde=True, rug=True)# Grafiği gösterelimplt.show()
Bu kod bloğu, 14 adet sayısal değer içeren bir veri kümesi oluşturur ve bu veri kümesine ait dağılım grafiğini Seaborn ile çizerek ekrana basar. Dağılım grafiği, her bir değerin kaç adet biriminin veri kümesinde yer aldığını göstermektedir. kde=True
parametresi, grafiğin üzerinde yoğunluğun da hesaplanmasını sağlar. Ayrıca, rug=True
parametresi ile birlikte, veri noktalarının grafiğin altında işaretlenmesi sağlanır.
Veri Scatter Grafiği
Veri Scatter Grafiği, iki değişken arasındaki ilişkiyi göstermek için kullanılan bir grafiktir. Bu grafiğin yatay ekseni birinci değişkeni, dikey ekseni ise ikinci değişkeni temsil eder. Her nokta, veri kümesindeki her bir örneği temsil eder. Scatter grafiği ile, iki değişken arasındaki ilişkiyi anlamak kolaylaşır.
Matplotlib, Python'da veri scatter grafiği çizmek için yaygın olarak kullanılan bir kütüphanedir. Basit bir scatter grafiği çizmek için, Matplotlib'in scatter() fonksiyonunu kullanabilirsiniz. Bu fonksiyon, x ve y parametrelerinin yanı sıra renk, boyut ve şekil gibi ek özellikleri ayarlamak için de kullanılabilir.
x = [1,2,3,4,5] | # İlk değişken |
y = [10,12,15,18,20] | # İkinci değişken |
plt.scatter(x,y) | # Scatter grafiği çizme işlemi |
Ayrıca, scatter grafiğine renk paleti eklemek için c parametresi ve noktaların boyutunu değiştirmek için s parametresi de kullanılabilir. Örneğin, aşağıdaki kod, x değişkeni ile y değişkeni arasındaki ilişkiyi gösteren bir scatter grafiği çizerken, noktaların boyutunu ve rengini de belirler.
x = [1,2,3,4,5] | # İlk değişken |
y = [10,12,15,18,20] | # İkinci değişken |
sizes = [20,30,45,60,80] | # Noktaların boyutu |
colors = ['red','blue','green','yellow','purple'] | # Noktaların rengi |
plt.scatter(x,y,c=colors,s=sizes) | # Scatter grafiği çizme işlemi |
Matplotlib kütüphanesi ile scatter grafiği çizme işlemi oldukça kolaydır. Veri analizi sırasında bu grafik sayesinde iki değişken arasındaki ilişkiyi yorumlamak kolaylaşır.
Veri Box Grafiği
Veri Box Grafiği, bir veri kümesindeki değerlerin dağılımını ve istatistiksel değerlerini temsil etmek için kullanılan bir grafiktir. Bu grafikte, verilerin ortanca, çeyreklikler ve aykırı değerleri dahil olmak üzere dağılımı kolayca fark edilir ve yorumlanır.
Seaborn kütüphanesi, Veri Box Grafiği çizmek için oldukça kullanışlı bir araçtır. Seaborn, Matplotlib'in üzerine inşa edilmiş ve özellikle veri görselleştirme işlemleri için tasarlanmış bir kütüphanedir. Veri Box Grafiği çizmek için, Seaborn'ın boxplot() yolunu kullanabilirsiniz. Bu yöntem, veri kümesini parametre olarak alır ve grafiği çizmek için gerekli olan istatistiksel özellikleri hesaplar.
Veri Box Grafiği, özellikle veri kümesindeki aykırı değerlerin tespit edilmesi için oldukça yararlıdır. Aykırı değerler, veri kümesi içinde beklenenden büyük veya küçük değerlere sahip olan verilerdir. Bu değerler, genellikle hatalı verilerdir ve analiz işlemini yanıltabilirler. Veri Box Grafiği çizerek, bu aykırı değerleri tespit edebilir ve veri kümesini netleştirebilirsiniz.
Seaborn ile Veri Box Grafiği çizmek için ayrıca grafiğin renkleri, boyutları ve etiketleri gibi özellikleri de kişiselleştirebilirsiniz. Bu özellikler, grafiklerin daha okunaklı ve anlaşılır olmasını sağlar. Aşağıdaki örnek kod parçası, Seaborn ile Veri Box Grafiği çizmek için basit bir örnektir:
import seaborn as snsimport pandas as pddata = pd.read_csv('veri_kumesi.csv')sns.boxplot(x=data["Column1"])
Bu kod örneğinde, veri kümesi 'veri_kumesi.csv' şeklinde bir CSV dosyasından yüklenir ve Column1 sütunundaki veriler kullanılarak Veri Box Grafiği çizilir. Grafik, Seaborn kütüphanesinin varsayılan renkleri ve boyutları kullanılarak çizilir.
Genel olarak, Veri Box Grafiği, veri kümesinin dağılımını ve istatistiksel özelliklerini görselleştirmek için oldukça yararlı bir grafiktir. Seaborn kütüphanesi, bu grafik türünü çizmek için kullanışlı bir araç sağlar ve birçok özelleştirme seçeneği sunar.
Veri Manipülasyonu
Veri manipülasyonu, veriler üzerinde çeşitli işlemler yaparak yeni bir bakış açısı kazanmamızı sağlayan önemli bir veri analizi tekniktir. Bu bölümde, verileri manipüle etmek için kullanılan temel teknikler hakkında bilgi edineceksiniz.
Veri Toplama: Veri toplama, bir veri kümesinde belirli bir kriteri karşılayan verileri seçmek için kullanılan bir tekniktir. Bu teknik, verileri daha küçük bir veri kümesine indirgemek amacıyla kullanılır. Veri toplama, veri filtreleme, veri seçme ve veri sıralama gibi tekniklerle birleştirilerek daha kapsamlı bir analiz yapmak mümkündür.
Veri Dönüştürme: Veri dönüştürme, bir veri kümesindeki verileri başka bir formata dönüştürmek için kullanılan bir tekniktir. Veri dönüştürme, verilerin uygun bir şekilde analiz edilmesini sağlamak için kullanılır. Veri dönüştürme işlemleri, veri temizleme ve veri düzenleme gibi işlemlerle birlikte kullanılarak veri doğrulama işlemlerine yardımcı olabilir.
Veri Gruplama: Veri gruplama, bir veri kümesindeki verileri belirli bir kritere göre gruplamak için kullanılan bir tekniktir. Bu teknik, verilerin daha anlamlı bir şekilde anlaşılmasına yardımcı olabilir. Veri gruplama, veri toplama ve veri dönüştürme teknikleriyle birleştirilerek daha kapsamlı bir analiz yapmak mümkündür.
Veri Birleştirme: Veri birleştirme, iki veya daha fazla veri kümesini birleştirmek için kullanılan bir tekniktir. Bu teknik, verilerin daha kapsamlı bir şekilde analiz edilmesine yardımcı olabilir. Veri birleştirme işlemleri, veri gruplama ve veri dönüştürme gibi işlemlerle birleştirilerek daha kapsamlı bir analiz yapmak mümkündür. Veri birleştirme işlemleri, ayrı ayrı ele alındığında anlamsız görünen verilerin bir arada analiz edilmesine olanak sağlar.
Veri Toplama
Veri Toplama
Veri toplama, bir veri kümesinde belirli bir kriteri karşılayan verileri seçmek için kullanılan bir tekniktir. Pandas, verileri sahip oldukları özellikler veya belirli bir kriteri karşılayan veriler gibi pek çok farklı yolla filtrelemeyi sağlar. Bunun için loc[] ve iloc[] operatörleri kullanılır. Bu operatörler, verilerin belirli bir satır aralığını veya sütunları seçmek için kullanılır.
Ayrıca, belirli bir kolona veya kriteri sağlayan satırlara göre veri toplama işlemi de yapılabilir. groupby() fonksiyonu kullanılarak, veriler belirli kriterlere göre gruplanabilir. Örneğin, bir ülkeye ait nüfus, ekonomi ve sosyal verileri toplayarak, bu ülkeye özgü veri seti oluşturulabilir.
Başka bir yöntem ise, belirli bir satırdaki eksik verileri başka bir kaynaktan tamamlamak için veri toplama işlemi yapılabilir. Bu, merge() fonksiyonu ile yapılabilir. Bu fonksiyon, verilerin benzersiz bir anahtara göre birleştirilmesini sağlar.
Veri Dönüştürme
Veri dönüştürme, bir veri kümesindeki verilerin farklı bir şekle dönüştürülmesi için kullanılan bir tekniktir. Pandas, veri dönüştürme teknikleri için birçok fonksiyon sunar. Bu fonksiyonlar arasında 'pivot', 'stack', 'unstack' ve 'melt' yer alır.
'Pivot' fonksiyonu, bir veri kümesindeki değerleri kategorilere göre gruplamak için kullanılır. Örneğin, bir ülkenin satış verileri, ürünlere göre gruplanarak toplam satış rakamlarını gösteren bir tablo olarak dönüştürülebilir.
Ülke | Ürün | Satış |
---|---|---|
ABD | Ayakkabı | 1000 |
ABD | Tişört | 500 |
Japonya | Ayakkabı | 800 |
Japonya | Tişört | 700 |
Bu veri kümesi 'pivot' fonksiyonu ile ülkelere göre gruplanarak toplam satışları gösteren bir formata dönüştürülebilir:
Ürün | ABD | Japonya |
---|---|---|
Ayakkabı | 1000 | 800 |
Tişört | 500 | 700 |
'Stack' ve 'unstack' fonksiyonları, çok seviyeli dizilerle çalışırken kolaylık sağlar. 'Stack', satırları sütunlara dönüştürürken 'unstack', sütunları satırlara dönüştürür. Örneğin, aşağıdaki veri kümesi:
Ad | Renk | Değer |
---|---|---|
A | Kırmızı | 5 |
B | Kırmızı | 3 |
A | Mavi | 4 |
B | Mavi | 1 |
'Stack' fonksiyonu ile renk sütunu indekslenir ve 'unstack' fonksiyonu ile ad sütunu indekslenir:
Kırmızı | Mavi | |
---|---|---|
A | 5 | 4 |
B | 3 | 1 |
'Melt' fonksiyonu ise, kolonları tek bir sütuna dönüştürerek veri kümesinin formatını değiştirir. Örneğin, aşağıdaki veri kümesi:
Ad | Birinci Dönem | İkinci Dönem |
---|---|---|
A | 70 | 80 |
B | 80 | 90 |
'Melt' fonksiyonu ile dönemler tek bir sütuna dönüştürülerek aşağıdaki formata dönüştürülebilir:
Ad | Dönem | Not |
---|---|---|
A | Birinci Dönem | 70 |
A | İkinci Dönem | 80 |
B | Birinci Dönem | 80 |
B | İkinci Dönem | 90 |