Pandas Kütüphanesi Nedir?

Pandas Kütüphanesi Nedir?

Python programlama dilinde en çok kullanılan kütüphaneler arasında yer alan Pandas, veri analizi ve manipülasyonu için kullanılan bir araçtır Pandas kütüphanesi, kolay kullanımı ve geniş özellik yelpazesiyle birçok veri bilimcisi ve analist tarafından tercih edilmektedir Bu yazıda Pandas kütüphanesi hakkında detaylı bilgi bulabilirsiniz

Pandas Kütüphanesi Nedir?

Pandas, Python dili için yüksek performanslı, kullanımı kolay veri yapıları ve veri analizi araçları sağlayan bir açık kaynaklı bir kütüphanedir.

Pandas, dünya çapında birçok şirket, kuruluş ve akademisyen tarafından veri analizi ve manipülasyonu için tercih edilmektedir. Bu kütüphane, genellikle büyük ve karmaşık veri setlerinde veri manipülasyonu ve temizleme işlemleri için kullanılır. Ayrıca, verileri sütunlar ve satırlar halinde okumanıza, yazmanıza ve yönetmenize olanak tanır.

Pandas kütüphanesi daha birçok özellik ve fonksiyonlar içermektedir. Aralarında veri filtreleme, sıralama, toplama, birleştirme, gruplama ve veri görselleştirme bulunmaktadır. Bu özellikler, veri analizindeki işlemleri yaparken büyük kolaylık sağlar.


Pandas Kütüphanesiyle Veriler Nasıl Okunur ve Yüklenir?

Pandas kütüphanesi, verilerin okunması ve yüklenmesi işlemlerini oldukça kolaylaştırır. Pandas kütüphanesiyle veri okuma işlemi için birçok farklı dosya formatı desteklenir. Bunlar arasında CSV, Excel, json, SQL, HTML ve daha birçok format yer alır.

CSV dosyası okuma işlemi için ‘read_csv’ fonksiyonu kullanılır. Örneğin, 'veriler.csv' adlı bir dosyayı okumak için aşağıdaki kod bloğu kullanılabilir;

``` pythonimport pandas as pd

df = pd.read_csv('veriler.csv')

print(df.head())```Excel dosyası okuma işlemi için ‘read_excel’ fonksiyonu kullanılır. Örneğin, 'veriler.xlsx' adlı bir excel dosyasını okumak için aşağıdaki kod bloğu kullanılabilir;

``` pythonimport pandas as pd

df = pd.read_excel('veriler.xlsx')

print(df.head())```

Pandas kütüphanesiyle verilerin yükleme işlemi için de birçok farklı yöntem bulunmaktadır. Bunlar arasında Python listesi, NumPy dizisi, CSV dosyası, Excel dosyası ve daha birçok format yer alır. Verilerin yükleneceği format’a göre uygun metotlar kullanılır.

Örneğin, Python listesi kullanarak veriler yüklemek için ‘DataFrame’ fonksiyonu kullanılır. Aşağıdaki örnek kod bloğunda ‘veriler’ isimli bir Python listesi oluşturulur ve ‘DataFrame’ fonksiyonu ile bu veriler yüklenir;

``` pythonimport pandas as pd

veriler = [['Ali', 20, 'Erkek'], ['Ayşe', 24, 'Kadın'], ['Mehmet', 30, 'Erkek'], ['Tuğçe', 28, 'Kadın']] df = pd.DataFrame(veriler, columns = ['Adı', 'Yaşı', 'Cinsiyeti'])

print(df.head())```

Pandas kütüphanesi, verilerin okunması ve yüklenmesi işlemlerinde sunduğu fonksiyonlarla oldukça fazla kolaylık sağlamaktadır. Bu sayede, doğru formatlarda verilerin hızlıca yüklenmesi ve okunması mümkün hale gelir.


Pandas Kütüphanesiyle Veri Manipülasyonu Nasıl Yapılır?

Pandas kütüphanesi, veri bilimcilerin en çok kullanılan araçlarından biridir. Verileri okuma, yükleme, filtreleme, gruplama ve görselleştirme gibi işlemleri gerçekleştirmede oldukça etkilidir. Veri manipülasyonu da bunlardan biridir.

Veri manipülasyonu, verilerin değiştirilmesi veya dönüştürülmesidir. Pandas kütüphanesi, veri manipülasyonu işlemlerini kolaylaştıran birçok yöntem sunar. Bunlar arasında veri filtreleme, sıralama, birleştirme, yeniden şekillendirme gibi işlemler bulunmaktadır.

Veri Manipülasyonu Yöntemi Açıklama Kod Örneği
Veri Filtreleme Belirli koşullara göre verilerin seçilmesi df[df['column_name']>50]
Veri Sıralama Belirli bir sütuna göre verilerin sıralanması df.sort_values('column_name')
Veri Birleştirme Farklı veri setlerinin birleştirilmesi pd.concat([df1, df2])
Veri Yeniden Şekillendirme Verilerin tekrar şekillendirilmesi df.pivot_table(values='value',index='index',columns='columns')

Bu yöntemler örneklerle daha iyi anlaşılabilir. Örneğin, veri filtrelemesi için belirli bir koşula göre verilerin seçilerek yeni bir veri seti oluşturulabilir. Aşağıdaki kod örneğinde 'column_name' sütununda 50 değerinden büyük olan veriler seçiliyor.

df[df['column_name']>50]

Veri sıralama işlemi de benzer şekilde kolayca yapılabilir. 'column_name' sütununa göre veriler aşağıdaki kod örneğiyle sıralanabilir.

df.sort_values('column_name')

Veri birleştirme işlemi de Pandas kütüphanesi ile oldukça basittir. İki farklı veri setinin birleştirilmesi aşağıdaki kod örneğiyle yapılabilir.

pd.concat([df1, df2])

Veri manipülasyonunun diğer bir yöntemi de verilerin yeniden şekillendirilmesidir. 'values', 'index' ve 'columns' parametreleri kullanılarak veriler pivot tablosuna dönüştürülebilir. Aşağıdaki kod örneği ile 'value' sütununa göre 'index' ve 'columns' sütunlarına göre yeniden şekillendirme işlemi yapılıyor.

df.pivot_table(values='value',index='index',columns='columns')

Pandas kütüphanesi, veri manipülasyonu işlemlerinde oldukça kullanışlıdır. Her bir yöntemin farklı amaçları vardır ve çoğu işlem için birden fazla yöntem kullanılabilir. Üstelik yöntemler kolayca uyarlanabilir ve kişiselleştirilebilir.


Veri Filtreleme ve Seçme

Pandas kütüphanesi, verileri filtrelemek ve seçmek için birçok yöntem sunar. Bu yöntemler, verileri belli bir koşula göre filtrelemek veya belirli etiketlere göre seçmek için kullanılır.

Koşullu seçim yöntemi, belirli bir koşulu sağlayan satırları seçmek için kullanılır. Örneğin, belirli bir sıcaklık aralığında olan satırları seçmek için aşağıdaki kod örneği kullanılabilir:

```df[df['Sıcaklık'] > 25]```

Bu kod satırı, 'Sıcaklık' sütunundaki değeri 25'ten büyük olan satırları seçer.

Etiket bazlı seçim yöntemi ise, satırları belirli bir etikete göre seçmek için kullanılır. Örneğin, aşağıdaki kod örneği belirli bir etikete sahip olan satırları seçer:

```df.loc[df['Etiket'] == 'A']```

Bu kod satırı, 'Etiket' sütununda 'A' olan satırları seçer.

Ayrıca, belirlenen kriterlere göre verileri filtrelemek için de kullanabileceğiniz birçok yöntem mevcuttur. Bunlar arasında `isin()` yöntemi, `df.query()` yöntemi, `between()` yöntemi ve `str.contains()` yöntemi yer almaktadır.

Veri filtreleme ve seçim yöntemlerinin kullanımı, kütüphane içindeki veri manipülasyonu işlemlerinde oldukça önemlidir. Yöntemleri kullanarak istediğimiz verileri hızlı bir şekilde seçebilir ve filtreleyebiliriz.


Koşullu Seçim

Pandas kütüphanesi veri seçimi konusunda oldukça esnek bir yapı sunar. Özellikle koşullu seçimlerde oldukça başarılı sonuçlar verir. Koşullu seçim işlemi yapabilmek için öncelikle Pandas kütüphanesi içinde 'loc' ve 'iloc' yöntemlerinin kullanımı gerekmektedir.

'loc' yöntemi etiket bazlı seçim yaparken, 'iloc' yöntemi indeks bazlı seçim yapar. Bir veri setinde istenilen belirli bir koşula uyan veriler seçilebilir. Örneğin, bir veri seti içinde belirlenmiş bir sınırın üstündeki verileri seçmek için sınıra eşit veya büyük olan verilere erişmek gerekir.

Bu işlem, şu şekilde yapılabilir:

Kod Örneği: Açıklama:
data[data['column'] >= value] 'column' adlı sütunda belirlenmiş bir değeri 'value' olarak belirler ve bu sınırdaki verileri seçer.

Bu yöntemle veriler hızlı ve kolay bir şekilde işlenebilir. Ayrıca, birden fazla koşulu aynı anda kullanabiliriz.

  • Kod Örneği: data[(data['column'] >= value) & (data['column2'] <= value2)]
  • Açıklama: 'column' adlı sütunda belirlenmiş bir değeri 'value' olarak belirler ve 'column2' adlı başka bir sütunda belirlenmiş sınıra eşit veya küçük olan verileri seçer.

Bu işlemlerin yanı sıra, 'isin' ve 'between' yöntemleri de kullanışlıdır. 'isin', verilerin belirli bir liste içinde olup olmadığını kontrol etmek için kullanılırken, 'between', verilerin belirli bir aralık içinde olup olmadığını kontrol etmek için kullanılır. Tüm bu yöntemler koşullu seçim işlemine yönelik veri manipülasyonunu geliştirmektedir.


Etiket Bazlı Seçim

Pandas kütüphanesi içinde etiketlerle veri seçim işlemi yapmak oldukça kolaydır. Etiketlerle seçim işlemini gerçekleştirmek için, ‘loc’ metodunu kullanabilirsiniz. Aşağıdaki kod örneğinde, ‘loc’ metodunu kullanarak etiket bazlı seçim işlemi gerçekleştirilmiştir.

Ad Yaş Boy
Ahmet 28 1.81
Mehmet 35 1.79
Aslı 42 1.65
Tahir 29 1.87

Yukarıdaki tabloda yer alan verileri kullanarak, ‘loc’ metodunu kullanarak etiket bazlı seçim işlemi gerçekleştirmek için aşağıdaki kod örneğine bakabilirsiniz.

# Pandas kütüphanesi yüklemeimport pandas as pd# Veri oluşturmadata = {'Ad': ['Ahmet', 'Mehmet', 'Aslı', 'Tahir'],        'Yaş': [28, 35, 42, 29],        'Boy': [1.81, 1.79, 1.65, 1.87]}df = pd.DataFrame(data, index=['AHM', 'MHM', 'ASL', 'THR']) # index olarak farklı etiketler tanımlandı# Etiket bazlı seçim işlemiprint(df.loc['ASL'])

Yukarıdaki kod örneğinde, ‘df.loc[‘ASL’]’ ifadesi kullanılarak Aslı’nın verileri etiket bazlı seçim işlemi ile ekrana yazdırılmıştır. Benzer şekilde, ‘loc’ metodunu kullanarak, farklı etiketlerle de seçim işlemi yapabilirsiniz.


Veri Gruplama

Veri Gruplama işlemi, verileri birbirine bağlayarak belirli kategorilere ayırmaya yarar. Bu sayede verilerin okunması ve analiz edilmesi daha kolay ve anlaşılır hale gelir. Pandas kütüphanesi de verilerin gruplandırılması işlemi için birçok yöntem sunar.

Bunlardan en yaygın kullanılanı groupby() fonksiyonudur. Bu fonksiyon, verileri belirli bir sütuna göre gruplandırır ve gruplandırılmış haldeki veriler üzerinde istatistiksel işlemler yapılmasına olanak tanır. Örneğin, bir kurumun çalışanları veri setindeki çalışanlar belirli bir sütuna göre gruplandırılarak her bir departmanın kaç çalışanı olduğu bulunabilir.

Örneğin, aşağıdaki veri setindeki ürünler, kategori sütununa göre gruplandırılarak toplam fiyatları bulunabilir:

Ürün Kategori Fiyat
Elma Meyve 2.5
Armut Meyve 3.0
Havuç Sebze 1.5
Patates Sebze 2.0

Kod parçası:

```import pandas as pd

urunler = pd.DataFrame({ 'Ürün': ['Elma', 'Armut', 'Havuç', 'Patates'], 'Kategori': ['Meyve', 'Meyve', 'Sebze', 'Sebze'], 'Fiyat': [2.5, 3.0, 1.5, 2.0]})

grouped_urunler = urunler.groupby(['Kategori']).sum()print(grouped_urunler)```

Bu kod parçasında, urunler veri seti Kategori sütununa göre gruplandırılarak her bir kategorideki ürünlerin toplam fiyatı bulunmuştur. Bu örnekte, Meyve kategorisindeki ürünlerin toplam fiyatı 5.5 (2.5+3.0) ve Sebze kategorisindeki ürünlerin toplam fiyatı da 3.5 (1.5+2.0) olarak bulunmuştur.

Pandas kütüphanesi aynı zamanda gruplama işlemi için farklı sütunlar kullanmayı da mümkün kılar. Örneğin, yukarıdaki örnekte fiyat yerine stok sütunu kullanılarak, ürünlerin her bir kategorideki toplam stok adedi de bulunabilir.

Sonuç olarak, Pandas kütüphanesi ile verilerin gruplandırılması işlemi oldukça kolay ve verimli bir şekilde yapılabilir. Groupby() fonksiyonu sayesinde verilerin istenilen bir sütuna göre gruplandırılması ve gruplandırılmış haldeki veriler üzerinde işlemler yapılması mümkündür.


Pandas Kütüphanesiyle Veri Görselleştirme Nasıl Yapılır?

Pandas kütüphanesi, verilerin görselleştirilmesi için birçok yöntem sunar. Bu yöntemler sayesinde veriler, grafiklerle veya görsel olarak daha kolay anlaşılabilir hale getirilebilir. Pandas kütüphanesi içinde kullanılabilen bazı veri görselleştirme yöntemleri şunlardır:

  • Çizgi grafikleri
  • Sütun grafikleri

Çizgi grafikleri, süreç boyunca değişen sayısal verilerin zaman içinde nasıl değiştirdiğini gösteren bir grafik türüdür. Bu grafikler, zamana bağlı bir değişiklik olan herhangi bir veri kümesini görselleştirmek için kullanılabilir. Pandas kütüphanesi içinde, çizgi grafikleri oluşturmak için .plot() yöntemi kullanılır.

Sütun grafikleri, bir veri kümesinin farklı kategorileri arasındaki satır bazlı karşılaştırmaların görselleştirilmesi için kullanılır. Pandas kütüphanesi içinde sütun grafikleri oluşturmak için de .plot() yöntemi kullanılır ve kind='bar' parametresi atandığında sütun grafikleri oluşturulur.

Örneğin, bir restoranın haftalık müşteri sayısını gösteren bir veri seti oluşturalım. Bu veri setini kullanarak, çizgi ve sütun grafikleri oluşturabiliriz.

TarihMüşteri Sayısı
1 Ocak50
8 Ocak75
15 Ocak100
22 Ocak85
29 Ocak70

Bu veri seti için, çizgi grafikleri oluşturmak için aşağıdaki kod kullanılabilir:

import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv('restoran_verileri.csv')df.plot()plt.show()

Sütun grafikleri oluşturmak için kullanılacak kod ise şöyledir:

import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv('restoran_verileri.csv')df.plot(kind='bar')plt.show()

Bu örnek, Pandas kütüphanesi içinde veri görselleştirme yöntemleri kullanarak verilerin nasıl görselleştirileceğini gösterir. Veri görselleştirme, verilerin analiz edilmesinde büyük bir rol oynar ve Pandas kütüphanesi, veri görselleştirme için çok kullanışlı bir araçtır.


Çizgi Grafikleri

Çizgi grafikleri, verileri açık bir şekilde görselleştirmek için sıkça kullanılan bir yöntemdir. Pandas kütüphanesi de çizgi grafikleri çizmek için birçok yöntem sunar. Çizgi grafikleri çizmek için ilk adım, öncelikle verilerinizi bir DataFrame veya bir Seri olarak yüklemenizdir.

Pandas kütüphanesi içinde "plot" fonksiyonu, çizgi grafikleri çizmek için sıkça kullanılan bir fonksiyondur. Bu fonksiyon kullanılarak verileri çizgi grafikleri olarak görselleştirebilirsiniz. Örneğin, aşağıdaki kod parçası, bir çizgi grafik çizmek için kullanılabilir:

```pythonimport pandas as pdimport matplotlib.pyplot as plt

# verileri yüklemeveriler = pd.read_csv('veriler.csv')

# çizgi grafiği çizmeveriler.plot(kind='line', x='tarih', y='değer')plt.show()```

Yukarıdaki kod, "veriler.csv" dosyasındaki tarih ve değer verilerini kullanarak bir çizgi grafiği çizer. Grafik, "tarih" ekseninde zamana karşı "değer" ekseninde verileri gösterir.

Pandas kütüphanesi, birden fazla çizgi grafiğini tek bir grafikte göstermek için de kullanılabilir. "plot" fonksiyonuna "subplots" parametresi ekleyerek, birden fazla çizgi grafiğini tek bir çizimde gösterebilirsiniz. Örneğin, aşağıdaki kod parçası, iki çizgi grafiği çizmek için kullanılabilir:

```python# verileri yüklemeveriler1 = pd.read_csv('veriler1.csv')veriler2 = pd.read_csv('veriler2.csv')

# iki çizgi grafiğini çizmefig, ax = plt.subplots()veriler1.plot(kind='line', x='tarih', y='değer', ax=ax)veriler2.plot(kind='line', x='tarih', y='değer', ax=ax)plt.show()```

Yukarıdaki kod, "veriler1.csv" ve "veriler2.csv" dosyalarındaki verileri kullanarak iki çizgi grafiği çizer. Çizgi grafikleri, "tarih" ekseninde zamana karşı "değer" ekseninde gösterilir ve tek bir çizimde gösterilir.

Kısacası, Pandas kütüphanesi, çizgi grafikleri çizmek için birçok yöntem sunar. "plot" fonksiyonu, çizgi grafikleri çizmek için en yaygın kullanılan yöntemdir ve birden fazla çizgi grafiği çizmek için de kullanılabilir. Pandas kütüphanesindeki bu çizim fonksiyonları, verilerinizi daha anlamlı bir şekilde görselleştirmenize yardımcı olabilir.


Sütun Grafikleri

Pandas kütüphanesi, veri analizi ve manipülasyonu için kullanılan popüler bir kütüphanedir. Sütun grafikleri, verilerin sütunlar halinde görselleştirilmesinde kullanılan bir yöntemdir. Pandas kütüphanesi içinde sütun grafikleri çizmek oldukça kolaydır ve herhangi bir veri setinde istediğiniz sütuna özel bir grafik oluşturabilirsiniz.

Sütun grafikleri, verilerin sayısal dağılımını, kategoriler arasındaki karşılaştırmaları veya zaman serilerini görselleştirmek için kullanılabilir. Pandas kütüphanesi içinde sütun grafikleri çizmek için "plot" fonksiyonu kullanılır. Bu fonksiyon, veri setindeki sütunları seçip grafik özelliklerini özelleştirmek için bir dizi parametre sunar.

İşte, bir örnek veri seti ve bu veri setindeki sütun grafikleri çizmek için kullanılan kod:

Ürün Fiyat Satışlar
Dondurma 10 100
Kek 12 80
Kahve 8 120
Kola 5 150

Yukarıdaki veri setindeki fiyat ve satış sütunlarına dayalı olarak bir sütun grafiği oluşturmak için şu kodu kullanabilirsiniz:

import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('veriseti.csv')data.plot(x='Ürün', y=['Fiyat', 'Satışlar'], kind='bar')plt.title('Fiyat ve Satışlar')plt.xlabel('Ürün')plt.ylabel('Değerler')plt.show()

Bu kod, sütun grafiğini çizmek için "kind='bar'" parametresini kullanır. "x" parametresi, x ekseninde yer alacak sütunu belirtirken, "y" parametresi, y ekseninde yer alacak sütunları gösterir. "title", "xlabel" ve "ylabel" fonksiyonları, grafik başlığı ve eksen etiketleri için gereklidir.

Özetle, sütun grafikleri, verilerin sütunlar halinde görselleştirilmesi için kullanılan etkili bir yöntemdir ve Pandas kütüphanesi tarafından kolaylıkla uygulanabilir. İster bir ticaret platformundan ister araştırma raporundan gelen verileri analiz etmek isteyin, sütun grafikleri size verilerin hızlı bir şekilde anlaşılmasını sağlayacaktır.