NumPy ve Pandas İle Veri Yönetimi ve Analizi için Pratik Örnekler, Python programlama dili kullanılarak veri yönetimi ve analizi alanında pratik olmak isteyenler için kapsamlı bir kaynaktır Kitap, NumPy ve Pandas kütüphanelerinin kullanımıyla gerçek hayatta karşılaşılan veri manipülasyonu problemlerini ele alır Kitap, pratik yöntemler sunarak, okuyuculara veri yönetimi ve analizi konularında ustalaşma imkanı sunar

Bu makale NumPy ve Pandas kütüphanelerinin kullanımı ile veri yönetimi ve analizinde pratik örnekler sunmaktadır. NumPy kütüphanesi temel veri tipleri, vektör işlemleri, matris işlemleri ve pratik uygulamaları konusunda bilgi edinmenizi sağlamaktadır. NumPy kütüphanesiyle vektör ve matris oluşturma, eleman seçimi ve işlemleri konusunda pratik bilgiler içermektedir.
Pandas kütüphanesi ise veri okuma ve yazma işlemleri, farklı veri yapıları, veri manipülasyonu ve pratik uygulamaları konusunda örneklendirilmiştir. Verilerin farklı veri yapılarına dönüştürülmesi, manipülasyonu, gruplandırılması, filtrelenmesi, birleştirilmesi ve sıralanması gibi konularda pratik örnekler sunulmuştur. Ayrıca Pandas kütüphanesi ile Excel ve CSV dosyalarının okunması ve yazılması da ele alınmıştır.
NumPy Kütüphanesi
NumPy kütüphanesi, Python dilinde veri manipülasyonu ve hesaplama işlemleri yapmak için kullanılan bir kütüphanedir. Bu kütüphanede yer alan temel veri tipleri vektör (array) ve matris (matrix) şeklindedir. Vektör işlemleri, tek boyutlu veriler üzerinde yapılırken, matris işlemleri iki boyutlu veriler üzerinde yapılır.
NumPy kütüphanesi içinde yer alan vektör işlemleri ile bir vektör oluşturma, birden fazla vektörü birleştirme, tek eleman seçimi veya tüm elemanlarda işlem yapabilme gibi pratik işlemler yapılabilir. Benzer şekilde, matris işlemleri ile bir matris oluşturma, matris elemanlarını seçme ve işlem yapma işlemleri gerçekleştirilebilir.
Vektör İşlemleri | Matris İşlemleri |
---|---|
• Vektör oluşturma | • Matris oluşturma |
• Birden fazla vektörü birleştirme | • Matris elemanlarını seçme ve işlem yapma |
• Tek eleman seçme veya tüm elemanlarda işlem yapma | • Satır veya sütun bazında işlem yapma |
NumPy kütüphanesi, veri manipülasyonu, istatistiksel analiz ve bilimsel hesaplama işlemlerinde büyük bir kolaylık sağlar. Bu yüzden, veri bilimciler ve araştırmacılar tarafından sıklıkla kullanılan bir kütüphanedir.
Vektör İşlemleri
NumPy kütüphanesi ile vektör işlemleri yapmak oldukça kolay ve pratiktir. İlk olarak vektör oluşturmak için farklı yöntemler mevcuttur. Linspace, arange, zeros, ones, random gibi farklı fonksiyonlar kullanarak vektör oluşturmak mümkündür.
Oluşturulan vektörler birleştirilebilir veya elemanları seçilebilir. Örneğin, iki farklı vektörü birleştirmek için concatenate fonksiyonu kullanılır. Vektör elemanlarının seçimi işlemi ise slicing ile yapılabilir.
Vektör işlemlerinde matematiksel işlemler oldukça yaygındır. Toplama, çıkarma, çarpma, bölme gibi işlemler numpy kütüphanesinin fonksiyonları ile pratik bir şekilde gerçekleştirilebilir. Ayrıca, vektörlerin dot product, cross product, matris çarpımı gibi işlemler de yapılabilir.
Tüm bunların yanı sıra, numpy kütüphanesi ile filtreleme, sıralama, indirgeme gibi işlemler de kolaylıkla yapılabilmektedir. Bu özellikleri sayesinde vektör işlemleri oldukça güçlü bir veri analiz aracı haline gelmektedir.
Vektör Oluşturma
Vektörler, tek boyutlu bir yapıda sıralanmış verilerdir ve matematikte sıklıkla kullanılır. NumPy kütüphanesi ile vektör oluşturmak oldukça kolaydır ve farklı yöntemleri vardır.
1. Listeler kullanarak vektör oluşturma:
Kod: | import numpy as npvector = np.array([1, 2, 3, 4, 5])print(vector) |
Açıklama: | Liste şeklinde verileri tanımlayarak 'np.array' fonksiyonunu kullanarak numPy dizisi oluşturulur. Oluşan vektör ekrana yazdırılır. |
Çıktı: | [1 2 3 4 5] |
2. Aralık kullanarak vektör oluşturma:
Kod: | import numpy as npvector = np.arange(0, 11)print(vector) |
Açıklama: | 'np.arange' fonksiyonu kullanarak, 0'dan 11'e (11 hariç) kadar olan aralığı vektöre dönüştürür. Oluşan vektör ekrana yazdırılır. |
Çıktı: | [ 0 1 2 3 4 5 6 7 8 9 10] |
3. Sıfırlardan oluşan vektör oluşturma:
Kod: | import numpy as npvector = np.zeros(5)print(vector) |
Açıklama: | 'np.zeros' fonksiyonu kullanılarak 5 adet sıfırdan oluşan vektör oluşturulur. Oluşan vektör ekrana yazdırılır. |
Çıktı: | [0. 0. 0. 0. 0.] |
Vektör oluşturma yöntemleri sınırlı değildir ve daha pek çok yöntem mevcuttur. Her yöntemin, belirli bir kullanım amacı ve avantajı vardır.
Eleman Seçimi ve İşlemleri
NumPy kütüphanesiyle vektör elemanlarını seçmek oldukça kolaydır. Vektörün belirli elemanlarını seçmek için, kare parantezler kullanarak elemanların indekslerini belirtebilirsiniz. Örneğin, a = np.array([1,2,3,4,5]) vektörümüz olsun ve ilk elemanı seçmek istiyorsak a[0] yazarak işlemimizi gerçekleştirebiliriz.
NumPy kütüphanesi ayrıca slicing işlemi yaparak belirli aralıklar arasındaki elemanları seçmenizi sağlar. Slicing işlemi için iki nokta arasına aralığı, iki nokta arasına iki nokta koyarak da aralıkta kaç eleman seçileceğini belirtebilirsiniz. Örneğin, a[1:3] işlemi yaparak vektörde 2. ve 3. elemanları seçebiliriz. Ayrıca, a[:3] işlemi ile de 1, 2 ve 3. elemanlar seçilebilir.
NumPy kütüphanesiyle vektör elemanlarının matematiksel işlemleri de oldukça kolaydır. Toplama, çıkarma, çarpma ve bölme işlemleri için basit matematiksel işlemler yapabilirsiniz. Bunun yanı sıra, NumPy kütüphanesi birçok matematiksel fonksiyon da sunar ve bunları da elemanlara uygulayabilirsiniz. Örneğin, np.sin(a) işlemi yaparak vektör elemanlarının sinüs değerlerini alabiliriz.
Matris İşlemleri
Matris işlemleri, NumPy kütüphanesi ile oldukça kolay hale gelmektedir. NumPy kütüphanesiyle matris oluşturma işlemi, vektör oluşturma işleminin biraz daha gelişmiş halidir. Matrisler, iki boyutlu dizilerdir ve farklı boyutlarda oluşturulabilirler.
NumPy kütüphanesi kullanarak matris elemanlarının seçimi de oldukça basittir. Matris elemanlarına ulaşmak ve işlem yapmak için matrisin [satır, sütun] indeksleri kullanılır. Örneğin, matrisin 3. satırının 2. sütunundaki elemanına ulaşmak için `matris[2,1]` yazılır.
Matris işlemleri, vektör işlemlerine benzer şekilde gerçekleştirilir. Matrislerin toplama, çıkarma, skalara çarpma ve matris çarpımı gibi işlemleri NumPy kütüphanesi ile kolayca yapılabilir. Özellikle, matris çarpımı işlemi için `dot()` fonksiyonu kullanılır.
Ayrıca, NumPy kütüphanesi ile matrislerin tersi, izi, determinantı gibi özelliklerini de hesaplamak mümkündür. Bu özellikler, matrislerle yapılan işlemler için oldukça önemlidir.
Matris Oluşturma
NumPy kütüphanesi, matris işlemleri için oldukça kullanışlı bir araçtır. Matris oluşturma işlemi de bu kütüphane sayesinde oldukça kolay ve pratik hale gelir. Matris oluşturma işleminde, NumPy kütüphanesi farklı yöntemler sunar. İlk olarak, matlab gibi programlama dillerinde kullanılan matris oluşturma yöntemleri NumPy ile de aynı şekilde kullanılabilir.
Örneğin, 3 satır ve 4 sütundan oluşan bir matrisin oluşturma işlemi şu şekilde yapılabilir:
import numpy as np |
matrisim = np.array([(1, 2, 3, 4), (5, 6, 7, 8), (9, 10, 11, 12)]) |
print(matrisim) |
Bu işlem sonunda, 3x4 boyutlarında bir matris oluşacaktır. Bunun yanı sıra, sıfırlardan veya birlerden oluşan matrisler de NumPy kütüphanesi ile kolayca oluşturulabilir.
Sıfırlardan oluşan bir matris oluşturmak için şu kod parçası kullanılabilir:
sifirler = np.zeros((3, 4)) |
print(sifirler) |
Benzer şekilde, birlerden oluşan bir matris oluşturmak için şu kod parçası kullanılabilir:
birler = np.ones((3, 4)) |
print(birler) |
Bu matris oluşturma işlemleri, NumPy kütüphanesi ile pratik bir şekilde yapılabilir. Matris oluşturma işleminin yanı sıra, oluşturulan matrislerin elemanlarına erişmek, matrisin boyutunu değiştirmek ve matris elemanlarında işlem yapmak da NumPy kütüphanesi ile yapılabilecek pratik örneklerdendir.
Eleman Seçimi ve İşlemleri
Matris elemanlarını seçmek ve işlem yapmak, NumPy kütüphanesi ile oldukça pratiktir. İlk olarak, eleman seçimi işlemlerini ele alalım. Matris elemanlarını seçmek için, matris içindeki konumuna göre index numarasını kullanabilirsiniz. Örneğin, bir 3x3'lük matrisin 2. satır ve 3. sütundaki elemanına ulaşmak için aşağıdaki kodu kullanabilirsiniz:
matrix = np.array([[1,2,3],[4,5,6],[7,8,9]])eleman = matrix[1,2]print(eleman) # Output: 6
Matris elemanlarını seçtikten sonra, farklı işlemler yapabilirsiniz. Örneğin, matris elemanlarını toplamak için np.sum() fonksiyonunu kullanabilirsiniz. Ayrıca, matris elemanlarının ortalamasını bulmak için np.mean() fonksiyonunu kullanabilirsiniz. Aşağıdaki örnekler, matris elemanlarının toplamını ve ortalamasını bulmak için kullanılan kodları göstermektedir:
matrix = np.array([[1,2,3],[4,5,6],[7,8,9]])toplam = np.sum(matrix)print(toplam) # Output: 45ortalama = np.mean(matrix)print(ortalama) # Output: 5.0
Bunların yanı sıra, matris elemanlarını çıkarmanız, çarpmanız veya bölemeniz de mümkündür. Bunun için, ilgili işlem işaretini kullanarak işlem yapabilirsiniz. Örneğin, aşağıdaki kod satırları, matris elemanlarının farklı matrislerle çarpılması ve bölünmesi için kullanılan kodlardır:
matrix = np.array([[1,2,3],[4,5,6],[7,8,9]])# Matris elemanlarını başka bir matrisle çarpmacarpim = matrix * 2print(carpim) # Output: [[ 2 4 6] # [ 8 10 12] # [14 16 18]]# Matris elemanlarını başka bir matrisle bölmebolum = matrix / 2print(bolum) # Output: [[0.5 1. 1.5] # [2. 2.5 3. ] # [3.5 4. 4.5]]
Bu işlemler ile NumPy kütüphanesini kullanarak matris elemanlarını seçebilir ve farklı işlemler yapabilirsiniz.
Pandas Kütüphanesi
Pandas kütüphanesi, veri yönetimi ve analizi için temel bir araçtır ve Python dilindeki en popüler kütüphanelerden biridir. Pandas kütüphanesi, verileri hızlı ve etkili bir şekilde manipüle etmek ve analiz etmek için gerekli araçları sağlar. Bu kütüphane, temel olarak iki veri yapısı sunar: Seriler ve DataFrame.
DataFrame, Pandas kütüphanesindeki en önemli veri yapısıdır. Bir DataFrame, sütunları ve satırları olan bir tablo gibi düşünülebilir. Sütunlar farklı veri tiplerini içerebilirken, satırlar, farklı gözlem birimlerinin (örneğin, müşteriler, ürünler veya çalışanlar) farklı özelliklerini içerebilir.
Pandas kütüphanesi aynı zamanda farklı dosya formatlarından veri okuma ve yazma işlemlerinde de kullanılabilir. Excel dosyaları (.xlsx) ve CSV dosyaları (.csv) olmak üzere çeşitli dosya türlerindeki veriler, Pandas kütüphanesi aracılığıyla kolayca yüklenip kaydedilebilir.
Bununla birlikte, Pandas kütüphanesi verilerin sadece okunmasına veya yazılmasına izin vermez. Verilerin işlenmesine ve manipüle edilmesine izin veren çeşitli fonksiyonları ve yöntemleri vardır. DataFrame'leri birleştirmek, filtrelemek, gruplandırmak ve sıralamak gibi farklı veri manipülasyon işlemlerini gerçekleştirmek Pandas kütüphanesiyle oldukça kolaydır.
Veri Okuma ve Yazma İşlemleri
Pandas kütüphanesi, farklı dosya türleri için veri okuma ve yazma işlemlerinin yapılabilmesini sağlar. Veri okuma işlemi, bir dosyadan verilerin okunması ve bir veri yapısı olarak yüklenip kullanılmasıdır. Bu işlem, verinin farklı formatlarda olması durumunda da yapılabilir.
Pandas kütüphanesi ile sıklıkla kullanılan dosya türleri arasında CSV, Excel, JSON ve SQL yer almaktadır. Bu dosya türlerinden herhangi birinin okunması veya yazılması, büyük ölçüde aynı yöntemlerle yapılır. Öncelikle, Pandas kütüphanesi yüklenir ve dosyanın yolu belirtilir.
Veri okuma işlemi yapılırken, okunacak dosyanın formatına uygun bir okuma işlemi gerçekleştirilir. Örneğin, CSV dosyaları için read_csv() fonksiyonu kullanılır. Aynı şekilde, Excel dosyaları için read_excel() fonksiyonu, JSON dosyaları için read_json() fonksiyonu kullanılır.
Pandas kütüphanesi ile Excel dosyalarının okunması ve yazılması oldukça kolaydır. read_excel() fonksiyonu kullanılarak, Excel dosyası bir DataFrame olarak okunabilir. Pandas ile Excel dosyalarına yazılması da aynı şekilde gerçekleştirilir. Veri çıktısının formatını seçmek için DataFrame.to_excel() fonksiyonu kullanılabilir.
CSV dosyaları, düz metin tabanlı bir veri biçimidir ve oldukça yaygındır. Bu dosya türleri, Pandas kütüphanesi için özel olarak tasarlanmış olan birçok fonksiyona sahiptir. read_csv() fonksiyonu ile CSV dosyaları kolayca okunabilir ve bir DataFrame olarak yüklenir. Aynı şekilde, DataFrame.to_csv() fonksiyonu kullanılarak bir DataFrame CSV dosyasına yazılabilir.
Sonuç olarak, Pandas kütüphanesiyle farklı dosya türleri için veri okuma ve yazma işlemleri oldukça kolaydır. Verinin formatı ne olursa olsun, bu işlemler neredeyse her türde veriye uygulanabilir.
Excel Dosyaları
Pandas kütüphanesi ile Excel dosyaları oldukça kolay ve hızlı bir şekilde okunabilir ve yazılabilir. Pandas'ın read_excel() fonksiyonu kullanarak Excel dosyaları okunabilir ve write_excel() fonksiyonu kullanarak Excel dosyaları yazılabilir. Bu fonksiyonlar, Excel dosyalarını veri çerçevelerinde okuyup yazılmasını kolaylaştırır, böylece verilerin ardındaki işlemler daha hızlı bir şekilde gerçekleştirilebilir.
Pandas kütüphanesi ile Excel dosyalarını okurken yapılacak ilk adım, pandas kütüphanesini içe aktarmaktır. Ardından, read_excel() fonksiyonunu kullanarak Excel dosyasını okuyabiliriz. read_excel() fonksiyonunda birçok parametre belirtilebilir, ancak dosya adı parametrenin en önemlisidir. Dosya adını ve belirli bir sayfa adını belirtmek için kullanılabilen bir başka parametre de vardır. Excel dosyası okunduktan sonra, veriler bir veri çerçevesine yüklenir ve Pandas kütüphanesinin tüm veri yapısını kullanarak verileri işlemek daha kolay hale getirilir.
Benzer şekilde, write_excel() fonksiyonu kullanılarak pandas veri çerçevesi Excel dosyasına yazılabilir. Bu işleme, dosya adı ve yazılacak sayfa adı parametreleri belirtildikten sonra yapılandırılabilir. Verileri sıralama, verileri filtreleme veya verileri gruplama gibi işlemler yapmak için Pandas kütüphanesi ile bu veri çerçeveleri daha sonra işlenebilir.
Excel dosyalarının okunup yazılması Pandas kütüphanesi ile daha pratik ve hızlı hale getirilebilir. Bu işlem, veri analizi gibi büyük bir veri setinin yönetimi için hayati öneme sahip olan bir işlemdir. Pandas kütüphanesi, bu tür dosyalardaki verilerin hızlı bir şekilde okunması ve yazılması için ideal bir araç olarak kullanılabilir.
CSV Dosyaları
Pandas kütüphanesi ile CSV dosyaları çok kolay bir şekilde okunabilir ve yazılabilir. İlk olarak, CSV dosyasını okumak için pd.read_csv()
fonksiyonu kullanılır. Bu fonksiyon, CSV dosyanın dosya yolunu parametre olarak alır ve bir DataFrame objesi olarak verileri döndürür.
Örneğin, aşağıdaki kod örneği, "veriler.csv" dosyasını okuyarak bir DataFrame oluşturur:
import pandas as pddf = pd.read_csv("veriler.csv")
Benzer şekilde, pd.to_csv()
fonksiyonu CSV dosyasına yazmak için kullanılır. Bu fonksiyon, bir DataFrame objesi ve dosya yolunu parametre olarak alır ve DataFrame verilerini belirtilen dosya yoluna CSV formatında yazarak kaydeder.
Örneğin, aşağıdaki kod örneği, "veriler.csv" dosyasına bir DataFrame'in verilerini yazar:
import pandas as pddf = pd.DataFrame({ 'ad': ['Ali', 'Ahmet', 'Mehmet'], 'yas': [25, 30, 35], 'maas': [4000, 5000, 6000]})df.to_csv("veriler.csv")
Her iki işlem de oldukça basit ve Pandas kütüphanesiyle veri yönetimi için kullanışlı bir araçtır.
Veri Yapıları
Pandas kütüphanesi, farklı veri yapılarına dönüştürülebilen ve manipüle edilebilen verilerin yönetiminde oldukça kullanışlıdır. Veri yapıları, verileri örgütlemenin, düzenlemenin ve analiz etmenin yoludur. Pandas kütüphanesi, DataFrame ve Series olmak üzere iki ana veri yapısı sunar.
DataFrame, iki boyutlu bir veri yapısıdır ve tablo şeklinde gösterilir. DataFrame, CSV veya Excel dosyalarından okunan verilerin dağıtılmış şekilde saklanmasına olanak tanır ve daha sonra verilerin analiz edilmesine olanak verir. Series, sütunlar şeklinde yakalanmış tek boyutlu bir veri yapısıdır. Bir DataFrame'in bir sütunu, bir Series'tir ve bu sütun üzerinde analiz işlemleri gerçekleştirebilirsiniz.
Pandas kütüphanesi, verilerin yeniden yapılandırılması da sağlar. Pivot işlemi, bir DataFrame'in sütunlarını yeniden düzenlemeyi, verileri yeniden düzenlemeyi ve yeniden şekillendirmeyi sağlar. Melt işlemi, bir DataFrame'i dikey bir şekilde dönüştürür ve özellikleri sütun başlıklarına dönüştürür. Bu, verileri daha kolay analiz etmenizi ve görselleştirmenizi sağlar.
Ayrıca, Pandas kütüphanesi, verileri gruplandırmanıza ve birleştirmenize olanak tanır. GroupBy metodunu kullanarak DataFrame'deki verileri birleştirebilirsiniz. Merge metodunu kullanarak, iki veya daha fazla DataFrame'deki verileri birleştirebilirsiniz. Bu yöntemler, verilerinizi daha kolay analiz etmenizi ve anlamlandırmanızı sağlar.
Verilerin düzenlenmesi ve analizi için Pandas kütüphanesi oldukça kullanışlıdır. Veri yapıları, verilerinizdeki bilgileri örgütlemenize ve manipüle etmenize olanak tanır. Pandas kütüphanesi ile verilerinizi biçimlendirebilir, yeniden yapılandırabilir ve manipüle edebilirsiniz.
DataFrame
DataFrame, Pandas kütüphanesinde en sık kullanılan veri yapısıdır. İki boyutlu bir tablo gibidir ve veriler satır ve sütunlar halinde düzenlenir. DataFrame oluşturmak için veriler genellikle CSV, Excel gibi dosyalardan veya veri tabanlarından okunur.
DataFrame oluşturmak için, Pandas kütüphanesinden newly-born bir DataFrame nesnesi oluşturulur ve bu nesne üzerinde satır ve sütunlar eklenir. Satırlar için `index`, sütunlar için `columns` parametreleri kullanılır. Veriler sütun başına verilir. Ayrıca, DataFrame'in adını ve değerleri değiştirme işlemi için `df.rename` yöntemi kullanılır.
Ad | Soyad | Yaş |
---|---|---|
Ali | Yılmaz | 25 |
Ayşe | Çetin | 30 |
Fatih | Beyaz | 35 |
- DataFrame oluşturma kodu:
import pandas as pddf = pd.DataFrame({ 'Ad': ['Ali', 'Ayşe', 'Fatih'], 'Soyad': ['Yılmaz', 'Çetin', 'Beyaz'], 'Yaş': [25, 30, 35]})print(df)# Output:# Ad Soyad Yaş# 0 Ali Yılmaz 25# 1 Ayşe Çetin 30# 2 Fatih Beyaz 35
- DataFrame'in adını ve değerlerini değiştirme kodu:
df.rename(columns={'Ad': 'Name', 'Soyad': 'Surname', 'Yaş': 'Age'}, inplace=True)print(df)# Output:# Name Surname Age# 0 Ali Yılmaz 25# 1 Ayşe Çetin 30# 2 Fatih Beyaz 35
Series
Pandas kütüphanesi ile veri analizi yaparken, Series veri yapısı oldukça sık kullanılır. Series bir dizi veriye sahip tek boyutlu bir yapıdır. NumPy array'leri ile benzerdir, ancak bir anahtar değeri olan etiketli verileri destekler. Pandas kütüphanesi ile bir serinin nasıl oluşturulacağına bakalım.
Bir Pandas Series'i, yine .Series() fonksiyonu kullanılarak oluşturulabilir. Aşağıdaki örnekte serinin birden beşe kadar olan sayıları içereceğini bildirdik:
Kod | Çıktı |
---|---|
import pandas as pd numbers = pd.Series([1,2,3,4,5]) print(numbers) | 0 1 1 2 2 3 3 4 4 5 dtype: int64 |
Bir seri oluşturduktan sonra, farklı işlemler yapmak mümkündür. Serinin uzunluğunu , seri elemanlarını görüntülemek, seriye erişmek gibi işlemler yapılabilir. İşte bunlar için kullanılacak anahtar özellikler aşağıda listelenmiştir:
- len() - Serinin uzunluğunu bulmak için kullanılır.
- .values - Serideki elemanları görmek için kullanılır.
- .index - Seri anahtarlarına (etiketleri) erişmek için kullanılır.
Yukarıdaki örneği kullanarak, Seri uzunluğunu, elemanlarını ve anahtarlarını nasıl görebileceğimizi kontrol edelim:
Kod | Çıktı |
---|---|
import pandas as pd numbers = pd.Series([1,2,3,4,5]) print("Uzunluk: ", len(numbers)) print("Elemanlar: ", numbers.values) print("Anahtarlar: ", numbers.index) | Uzunluk: 5 Elemanlar: [1 2 3 4 5] Anahtarlar: RangeIndex(start=0, stop=5, step=1) |
Seri oluşturma ve işlemleri hakkında daha fazlasını öğrendikten sonra, veri analizinde seri kullanmanın farklı yollarını keşfedebilirsiniz. Seriler, özellikle tek boyutlu verilerle çalışırken, verileri düzenlemek ve analiz etmek çok yararlıdır.
Veri Manipülasyonu
Pandas kütüphanesi ile verilerin manipülasyonu işlemleri veri analizinde önemli bir yer tutar. Bu kütüphane sayesinde veriler gruplandırılabilir, filtrelenip istenilen sütunlara erişilebilir, birleştirilip temizlenebilir ve sıralanabilir. Pandas kütüphanesi, veri manipülasyonu açısından oldukça güçlü bir araçtır.
Gruplama: Pandas kütüphanesi, gruplama işlemini gerçekleştirmek için groupby() fonksiyonu kullanır. Bu fonksiyon, veriyi belirli bir sütuna göre gruplandırabilir ve her bir grubun toplamını veya ortalamasını hesaplayabilir. Gruplama işlemi sırasında sıklıkla kullanılan bazı fonksiyonlar şunlardır:
- count() - Gruplanan verilerin sayısını döndürür.
- sum() - Gruplanan verilerin toplamını döndürür.
- mean() - Gruplanan verilerin ortalamasını döndürür.
- min() - Gruplanan verilerin en küçük değerini döndürür.
- max() - Gruplanan verilerin en büyük değerini döndürür.
Filtreleme: Verilerin filtrelenmesi, belirli bir koşula göre verilerin seçilmesini sağlar. Pandas kütüphanesi ile filtreleme işlemi gerçekleştirmek için, verilerin bir sütununa filtre uygulamak gerekmektedir. Verilerin seçimi için belirtilen koşula uygun veriler seçilir ve istenilen sütunlara erişim sağlanabilir.
Birleştirme: Pandas kütüphanesi ile birleştirme işlemi, farklı sütunlarda yer alan verilerin birleştirilmesini sağlar. İki veya daha fazla veri kümesi, belirli bir sütuna göre birleştirilerek tek bir veri kümesi oluşturulabilir. Bu işlem sırasında, verilerin uygun şekilde birleştirilmesi önemlidir çünkü eşleşmeyen veriler kaybolabilir.
Sıralama: Pandas kütüphanesi ile sıralama işlemi, bir sütuna veya sütunlara göre verilerin sıralanmasını sağlar. Bu işlem sırasında, verilerin belirli bir sıraya göre sıralanması yapılabilir. Sıralama işlemi yapılırken, istenilen sıralama yöntemi belirtilir ve veriler buna uygun şekilde sıralanır.
Gruplama
Pandas kütüphanesi ile verilerin gruplandırılması, verilerin özelleştirilmiş şekilde analiz edilmesini sağlar. Bu işlem, verilerin belirli bir özelliğe göre gruplandırılmasıyla yapılır. Bu özellik, benzersiz bir değere sahip bir sütun olabilir veya birkaç sütunun bir arada kullanımıyla elde edilebilir.
Bir Pandas veri çerçevesinde, gruplandırma işlemi groupby()
metodunu kullanılarak elde edilir. Bu metodla, veriler, belirli bir sütuna göre gruplandırıldığında, her gruba ait veriler görüntülenebilir ya da gruplama sonucu elde edilen veriler üzerinde çoklu işlemler yapılabilir.
Örneğin, bir şirketteki çalışanlar hakkında veri içeren bir veri çerçevesinde, departmanlara göre gruplama yapabiliriz. Böylece her departmanın sahip olduğu çalışan sayısı, ortalama maaşları vb. bilgiler elde edebiliriz. Aşağıdaki örnek, bir veri çerçevesinin 'departman' sütununa göre gruplanmasını göstermektedir;
Departman | Ad Soyad | Maaş |
---|---|---|
Satış | Ayşe Yılmaz | 5000 TL |
Satış | Mehmet Ali | 4500 TL |
Muhasebe | Mustafa Demir | 5500 TL |
Muhasebe | Zeynep Aktaş | 6000 TL |
Yukarıdaki örnekte departmanlara göre gruplandıktan sonra, örneğin her bir departmandaki ortalama maaş için groupby()
metodunu kullanabiliriz. Bu işlem sonucu elde edilen veri çerçevesi aşağıdaki gibi olacaktır;
Departman | Ortalama Maaş |
---|---|
Satış | 4750 TL |
Muhasebe | 5750 TL |
Bu örnek, gruplama işlemlerinin ne kadar pratik ve önemli olduğunu göstermektedir. Pandas kütüphanesi ile gruplama işlemleri, veri analizi ve karar verme süreçlerinde oldukça sık kullanılır.
Filtreleme
Filtreleme, verileri belirli koşullara göre seçme işlemidir. Pandas kütüphanesi ile filtreleme işlemi oldukça pratiktir. Verileri filtrelemek için bir koşul belirlememiz ve bu koşula uyan verileri seçmemiz yeterlidir.
Bir örnek üzerinden filtreleme işlemini daha iyi anlayabiliriz. İki sütundan oluşan bir dataframe'de bulunan verileri belirli bir koşula göre filtreleyelim. Örneğin, bir şirketteki çalışanların maaş verileri bulunan bir dataframe'de, maaşı 5000'den fazla olan çalışanları seçmek istediğimizde, şu kodu kullanabiliriz:
Kod | Açıklama |
---|---|
df[df['maas']>5000] | Maaşı 5000'den fazla olan çalışanları seçer. |
Bu şekilde, koşulu sağlayan verileri seçerek filtreleme işlemi yapılmış olur. Farklı koşullar için benzer yöntemler kullanılabilir.
Birleştirme
Pandas kütüphanesi, verilerin birleştirilmesi işlemini sağlayan birçok yöntem sunmaktadır. Verilerin birleştirilmesi yöntemleri içerisinde en sık kullanılan yöntemler; concat(), merge() ve join() fonksiyonlarıdır.
concat() fonksiyonu, iki veri setini birleştirmek için kullanılan en basit yöntemdir. Bu yöntem, iki veri setini yan yana veya üst üste birleştirmek için kullanılır. İki farklı dataframe'i satır veya sütun bazlı olarak birbirine eklemek istiyorsanız, "concat()" fonksiyonunu kullanabilirsiniz. Bu işlem için "concat()" fonksiyonunda; hangi dataframe eklenmek isteniyorsa onun belirtilmesi ve "axis" parametresinin belirtilmesi gerekmektedir.
merge() fonksiyonu, bir veya daha fazla dataframe'in sütunlarına göre birleştirilmesi için kullanılır. "merge()" fonksiyonu, SQL'de kullandığımız "join" operasyonlarını içerir. "merge()" fonksiyonu genellikle, iki farklı dataframe'in aynı sütunda ortak özelliklere sahip oldukları durumlarda kullanılır. "merge()" fonksiyonu, "how" parametresi ile farklı birleştirme stratejilerini belirleyebilir. Bu stratejiler; "inner", "outer", "left" ve "right" olarak sıralanır.
join() fonksiyonu, bir veya daha fazla dataframe'in index değerlerine göre birleştirilmesi için kullanılır. "join()" fonksiyonu, "merge()" fonksiyonuna benzer şekilde, birleştirme işlemlerinde kullanılabilecek farklı stratejileri belirlemek için "how" parametresi kullanır. Bu stratejiler; "inner", "outer", "left" ve "right" şeklinde sıralanır.
Birleştirme işlemleri, veri analizinde oldukça önemli bir yere sahip olup, analizin doğruluğunu arttırmaya yardımcı olur. Pandas kütüphanesi sayesinde, birleştirme işlemleri oldukça kolay ve hızlı bir şekilde gerçekleştirilebilir.
Sıralama
Pandas kütüphanesi, verilerin sıralanması işlemi için sort_values() fonksiyonunu içerir. Bu fonksiyon, belirli bir sütuna göre verileri sıralamak için kullanılır. Mesela bir veri çerçevesindeki sütunu, artan veya azalan düzende sıralama yapmak için sort_values() fonksiyonu kullanılır.
Örneğin, bir müşteri veri çerçevesindeki satın alma tarihlerine göre sıralamak için şu kod kullanılabilir:
```musteriler.sort_values('Satın Alma Tarihi', ascending=False)```
True veya False değeri ascending parametresine atanabilir. True değeri, verilerin artan düzende sıralanmasını sağlarken False değeri, verilerin azalan düzende sıralanmasını sağlar.
Ayrıca, sort_values() fonksiyonu birden fazla sütuna göre sıralama yapmak için kullanılabilir. Mesela, bir müşteri veri çerçevesindeki ilk isim ve soyisim sütunlarına göre sıralama yapmak için şu kod kullanılabilir:
```musteriler.sort_values(['İlk İsim', 'Soyisim'], ascending=True)```
Bu şekilde bir kod, ilk sütuna göre sıralama yaparak, ilk isimlere göre alfabetik olarak sıralar. Ardından, aynı isimde olan verileri soyisim sütununa göre alfabetik sıraya göre sıralar.
Tablo veya listeler kullanarak, sıralama işlemiyle ilgili örnekleri daha ayrıntılı olarak açıklayabilir ve okuyucuların daha iyi anlamalarını sağlayabilirsiniz.