Bu yazıda NumPy ve Pandas kullanarak veri analizi ve görselleştirme örnekleri sunuluyor Veri analizi ve görselleştirme konusunda daha fazla bilgi edinmek isteyenlerin mutlaka okuması gereken bir yazı NumPy ve Pandas ile veri analizi yeteneklerinizi keşfedin

Bu makalede, NumPy ve Pandas kütüphanelerinin kullanımı ile veri analizi ve görselleştirme örneklerinin nasıl yapılabileceğine değineceğiz. NumPy kütüphanesi, Python programlama dili ile veri analizi ve bilimsel hesaplamalar yapmak için sıklıkla kullanılan bir kütüphanedir. Pandas kütüphanesi ise, Python programlama dilinde veri manipülasyonu ve analizi için kullanılan bir kütüphanedir.
Bu makalede, temel NumPy ve Pandas fonksiyonları ve veri yapıları hakkında bilgi verilecek. NumPy dizileri ve işlemlerini örneklerle incelerken Pandas veri çerçeveleri ve işlemlerini de örneklerle anlatacağız. Sonrasında, verilerin görselleştirilmesi için kullanılan Matplotlib ve Seaborn kütüphaneleri ile nasıl grafikler ve şemalar çizileceğini açıklayacağız.
NumPy Nedir?
Python'da veri analizi ve bilimsel hesaplamalar yapmak için kullanılan bir kütüphane olan NumPy, çok boyutlu dizilerle çalışır ve yaygın şekilde kullanılan birçok matematiksel işlem için hızlı ve verimli fonksiyonlar içerir. İndeks tabanlı ve vektörize edilmiş hesaplamalar için daha verimli bir arayüz sağlayarak, yüksek performanslı, büyük veri setlerinin işlenmesine olanak tanır. NumPy kütüphanesi, kod yazımını daha hızlı ve kolay hale getirirken, yine de güçlü bir araçların kullanılmasına olanak sağlar.
NumPy kütüphanesi, bilim insanları, mühendisler ve veri analistleri tarafından sıklıkla kullanılır. Matematiksel hesaplamalar için vektör ve matris operasyonları içerdiğinden, büyük veri setleriyle çalışanlar daha da hızlı ve daha etkili hale getirirler. NumPy, yüksek derecede optimize edilmiş algoritmaları kullanarak performansı iyileştirebilir ve özellikle şarj miktarı önemli olduğunda bağlantı kayıplarını azaltabilir. NumPy, veri analizi, bilimsel hesaplama, yapay zeka ve makine öğrenmesi için önemli bir kütüphanedir.
Pandas Nedir?
Pandas, Python programlama dilinde veri analizi ve manipülasyonu işlemleri için kullanılan bir kütüphanedir. Adı, "Panel Data" kelimelerinin birleşiminden gelmektedir. Veri çerçeveleri gibi, birçok farklı veri türünü destekler. Pandas'ın, veri analiz işlemleri yaparken diğer kütüphanelere yakın bir performans sergilediği bilinmektedir.
Pandas ile veri çerçeveleri oluşturabilir, erişebilir, birleştirebilir ve dönüştürebilirsiniz. Ayrıca, veriyi temizleme, sıralama, filtreleme, birleştirme, gruplama ve daha birçok işlemi yapabilirsiniz. Veri çerçevelerinin yanı sıra, Pandas zaman serilerini işlemek için de kullanılabilmektedir. Pandas'ın sunduğu farklı özellikler sayesinde veri manipülasyonu daha kolay ve hızlı hale gelmektedir.
Pandas, yüksek performanslı, kolay kullanımı olan ve açık kaynak kodlu bir kütüphanedir. Hem akademik araştırmalar hem de endüstriyel alanlarda sıklıkla kullanılmaktadır.
Veri Yapıları ve Fonksiyonlar
Bir veri analizi yapmak için öncelikle elimizdeki veriyi doğru bir şekilde işlememiz gerekmektedir. NumPy ve Pandas kütüphaneleri, bunu yapmak için oldukça kullanışlıdır.
NumPy, Python’daki bilimsel hesaplama ve veri analizi işlemleri için en çok kullanılan kütüphanelerden biridir. NumPy’da en temel veri yapısı “ndarray”dir. Bu veri yapısı, herhangi bir boyutta (1 boyutlu, 2 boyutlu, vs.) olabilen çok boyutlu dizilerdir.
Pandas, Python’da güçlü ve hızlı bir şekilde veri manipülasyonu ve analiz etme işlemini sağlayan bir kütüphanedir. Pandas kütüphanesi, en temel veri yapısı olarak “DataFrame” kullanır. DataFrame, sütun ve satırlardan oluşan bir tablo şeklindedir.
NumPy ve Pandas kütüphaneleri, birbirlerinden farklı veri yapılarına sahip olsalar da, ikisi de veri analizi ve manipülasyonu işlemlerinde oldukça geniş bir araç yelpazesine sahiptirler. Veri yapılarına ek olarak, her iki kütüphane de bazı temel fonksiyonlar sunar. Örneğin, NumPy’da matematiksel fonksiyonlar (sin, cos, exp vb), bölme, çarpma, toplama gibi işlemler yapmak ve farklı boyutlarda diziler oluşturmak mümkündür. Pandas’ta ise, verileri sıralama, filtreleme ve işleme yapmak için özel fonksiyonlar bulunmaktadır.
Her iki kütüphane de, büyük miktarda veri işleme işlemlerinde oldukça hızlı ve etkilidirler. NumPy ve Pandas ile veri yapıları ve fonksiyonları hakkında daha detaylı bilgiye sahip olabilirsiniz.
NumPy Dizileri ve İşlemleri
NumPy kütüphanesi, bilimsel hesaplama ve veri manipülasyonu yapmak için vazgeçilmez bir araçtır. Birçok farklı veri tipini destekleyen NumPy dizileri, hızlı ve etkili bir şekilde işlem yapmayı sağlar. NumPy dizisi oluşturma işlemi oldukça basittir ve "np.array()" fonksiyonu kullanılarak yapılabilir. Örneğin:
import numpy as nparr = np.array([1, 2, 3, 4, 5])print(arr)
Bu kod bloğu, [1, 2, 3, 4, 5] elemanlarından oluşan bir NumPy dizisi oluşturur. Bu diziyi farklı şekillerde işlemek mümkündür. Örneğin, dizinin elemanlarını toplamak için "np.sum()" fonksiyonu kullanılabilir:
import numpy as nparr = np.array([1, 2, 3, 4, 5])print(np.sum(arr))
Bu kod bloğu, dizinin elemanlarının toplamını hesaplar ve ekrana yazdırır. NumPy dizileri üzerinde farklı işlemler yapmak mümkündür. Bunlar arasında eleman eklemek, çıkarmak, çarpıştırmak, bölümlemek gibi işlemler bulunur.
Bununla birlikte, NumPy dizileri sadece tek boyutlu değil, çok boyutlu da olabilir. Örneğin:
import numpy as nparr = np.array([[1, 2, 3], [4, 5, 6]])print(arr)
Bu kod bloğu, iki boyutlu bir NumPy dizisi oluşturur ve ekrana yazdırır. İki boyutlu diziler üzerinde de farklı işlemler yapmak mümkündür. Örneğin, aynı satırdaki elemanları toplamak için "np.sum()" fonksiyonu kullanılabilir:
import numpy as nparr = np.array([[1, 2, 3], [4, 5, 6]])print(np.sum(arr, axis=0))
Bu kod bloğu, iki boyutlu dizinin her bir sütunundaki elemanların toplamını hesaplar ve ekrana yazdırır. Bu örnekler, NumPy kütüphanesi ile yapabileceğiniz işlemlerin sadece birkaç örneğidir. Bu kütüphanenin daha pek çok özelliği bulunmaktadır.
Pandas Veri Çerçeveleri ve İşlemleri
Pandas kütüphanesi, veri çerçeveleri oluşturma ve bunlar üzerinde işlemler yapma konusunda oldukça kullanışlıdır. Öncelikle, bir veri çerçevesi oluşturmak için veriler bir sözlük veya listeden aktarılır ve "DataFrame" sınıfına dönüştürülür. Ayrıca, veri çerçevelerinde sütunlar ve satırlar belirtilerek verilerin daha kolay görüntülenmesi sağlanır.
Pandas kütüphanesi sayesinde, veri çerçevelerinde sorgulama işlemleri yapmak mümkündür. Örneğin, "loc" fonksiyonu kullanılarak, belirli bir satıra veya sütuna erişmek mümkündür. Ayrıca, verileri filtrelemek, sıralamak ve gruplamak da mümkündür. Bu işlemleri gerçekleştirirken, Pandas kütüphanesinde yer alan "groupby" fonksiyonu oldukça kullanışlıdır. Bu fonksiyon sayesinde veriler gruplar halinde incelenebilir ve bu gruplar üzerinde çeşitli işlemler yapılabilir.
Bunların yanı sıra, Pandas kütüphanesi ile verilerin birleştirilmesi ve farklı kaynaklardan verilerin okunması da mümkündür. Çeşitli dosya tipleri, örneğin CSV ve Excel, kolayca okunabilir ve veri çerçeveleri halinde işlenebilir. Ayrıca, verileri birleştirerek daha büyük veri kümeleri oluşturmak da mümkündür.
Veri çerçeveleri hakkında daha fazla bilgi edinmek için, Pandas kütüphanesinde yer alan belgeleri inceleyebilir veya çeşitli kaynaklardan örnekler inceleyebilirsiniz. Ayrıca, farklı veri tiplerini işlemek için çeşitli işlevlerin nasıl kullanıldığı hakkında da bilgi edinmek mümkündür. Pandas kütüphanesi, veri analizi ve görselleştirme alanında oldukça önemli bir araçtır ve bu nedenle, bu konuda bilgi sahibi olmak oldukça avantajlıdır.
Veri Görselleştirme
Veri analizi sürecinde elde edilen sonuçları görselleştirmek, verilerin anlaşılmasını ve yorumlanmasını kolaylaştırır. NumPy ve Pandas kütüphaneleri ile veri görselleştirme için çeşitli araçlar bulunmaktadır.
Matplotlib kütüphanesi, Python programlama dilinde en sık kullanılan veri görselleştirme aracıdır. Grafik çizimleri oluşturmak için kullanılır ve bar grafikleri, scatter plotlar, histogramlar, 3D görüntüleme vb. çizimler yapmak için birçok fonksiyon içermektedir.
Bir diğer görselleştirme aracı olan Seaborn kütüphanesi, Matplotlib'in üzerine kurulmuştur ve daha yüksek seviye araçlara sahiptir. Özellikle, dağılım ve regresyon çizimleri gibi istatistiksel görselleştirmeler için idealdir.
Bu kütüphaneler ile basit örnekler yaparak veri görselleştirme konusunda daha iyi anlayış sağlanabilir. Örneğin, bir veri kümesinin histogramını çizerek dağılımının nasıl olduğu gösterilebilir. Bu çizimler, verilerin içindeki bilgiyi analiz etmek ve karar vermek için çok faydalıdır.
Ayrıca, NumPy ve Pandas kütüphaneleri, veri görselleştirme işlemlerinde de kullanılabilir. Örneğin, Pandas'ın DataFrame yapısı, veri görselleştirmede oldukça faydalıdır. Bu yapı sayesinde veri setlerine filtreler uygulanabilir ve belirli bir kısmı seçilerek grafikler çizdirilebilir.
Sonuç olarak, veri görselleştirme işlemi, veri analiz sürecinde önemli bir adımdır. NumPy ve Pandas kütüphaneleri ile birlikte kullanılan görselleştirme araçları, verilerin daha anlaşılır ve yorumlanabilir hale gelmesini sağlar. Matplotlib ve Seaborn kütüphaneleri ile yapılabilecek birçok farklı grafik çizimleri vardır ve bu sayede verilerin daha kolay analiz edilmesi mümkündür.
Matplotlib Kütüphanesi
Matplotlib, Python programlama dili için her türlü bilimsel ve matematiksel görselleştirme için kullanılan bir kütüphanedir. NumPy ve Pandas kütüphanelerinde yer alan verilerin grafiksel olarak temsil edilmesi ve analiz edilmesi için kullanılan Matplotlib, çizgi grafikleri, histogramlar, 3D grafikleri ve daha birçok şekilde ve gösterimde kullanılabilir.
Matplotlib kütüphanesiyle çizgi grafikleri oluşturmak oldukça basittir. Öncelikle kütüphane kullanılarak verilerden bir dizi oluşturulur ve bu dizi Matplotlib kullanılarak çizgi grafik olarak gösterilir. Histogramlar ve diğer tür grafikler de benzer bir şekilde oluşturulabilir. Matplotlib'in sunduğu özelliklerle grafiklerin görünümü de kişiselleştirilebilir.
Ayrıca, Matplotlib kütüphanesi, grafiklerin oluşturulma biçiminde diğer araçlarla etkileşime girerek daha karmaşık tasarımların yapılmasını sağlar. Bir veri setindeki fazla noktaların gösterimi, grafikler arasındaki etkileşimler, daha büyük veri setlerindeki analizler, yüzey haritaları ve daha birçok özellik de Matplotlib kullanılarak elde edilebilir.
Dolayısıyla, Matplotlib kütüphanesi NumPy ve Pandas kütüphaneleriyle birlikte kullanıldığında, verileri analiz etmek ve sonuçlarını görselleştirmek için oldukça etkili bir araçtır.
Seaborn Kütüphanesi
Seaborn kütüphanesi, veri analizi ve görselleştirme için kullanılan bir Python kütüphanesidir. Bu kütüphane, Matplotlib'ten türetilmiştir ve daha görsel açılardan daha gelişmiş bir grafik arayüzü sunar. Seaborn kütüphanesinde, Matplotlib kütüphanesinin sunduğu tüm grafik türleri kullanılabilir ve daha fazlası eklenmiştir.
Seaborn kütüphanesi ile grafik çizimleri, Matplotlib kütüphanesi kadar standart bir şekilde yapılamaz. Ancak Seaborn kütüphanesi, veriler arasındaki çeşitli ilişkileri kolayca gösteren çizim türleri sunar. Bu nedenle, Seaborn kütüphanesi genellikle veri analizi ve görselleştirme projeleri için kullanılır.
Grafik Türleri | Açıklama |
---|---|
Scatterplot | Veriler arasındaki ilişkiyi göstermek için kullanılan nokta grafiği |
Lineplot | Bir veri grubunun zaman içindeki değişimini göstermek için kullanılan çizgi grafiği |
Barplot | Kategorik verilerin gösteriminde kullanılan çubuk grafiği |
Heatmap | 2 boyutlu bir matrisin renklendirilerek gösterilmesi |
Seaborn kütüphanesi, verileri ve grafikleri daha estetik hale getirmek için çeşitli renk paletleri sunar. Ayrıca, Matplotlib kütüphanesindeki grafiklere kıyasla daha fazla özelleştirme seçeneği sunar ve daha manuel müdahalelerle daha iyi görüntüler oluşturulmasına izin verir.
Örneğin, bir sepetbol maçı sırasında oyuncuların süreleri ve skorları ile ilgili bir veri seti ele alalım. Bu veri seti üzerinde bir Scatterplot Seaborn kullanarak çizebilir ve her bir oyuncunun skoru hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, veri setini işlemek için Pandas kullanabilirsiniz ve NumPy ile gerekli hesaplamaları yapabilirsiniz.
Kaynak Kodları ve Örnekler
Bu makalede, NumPy ve Pandas kütüphanelerinin kullanımı ile veri analizi ve görselleştirme örneklerini ele aldık. Şimdi ise bu konuda kullanılan bazı kaynak kodları ve örnekleri paylaşacağız.
Verilerin yüklenmesi, manipülasyonu ve analizi için Pandas'ın kullandığı veri çerçeveleri ve NumPy'ın kullandığı diziler özellikle kullanışlıdır. Ancak, her iki kütüphane de karmaşık verileri işlemek için gerekli olan bir dizi fonksiyona sahiptir.
Örneğin, bir Pandas veri çerçevesi içindeki belirli sütunları seçmek için iloc
ve loc
fonksiyonları kullanılabilir. NumPy'ın reshape
fonksiyonu da, bir dizi içinde verilerin yeniden şekillendirilmesini sağlar.
Fonksiyon | Amacı | Kullanımı |
---|---|---|
pd.read_csv() | CSV dosyalarından DataFrame oluşturma | df = pd.read_csv("veriler.csv") |
df.head() | DataFrame'in ilk 5 satırını görüntüleme | df.head() |
df.tail() | DataFrame'in son 5 satırını görüntüleme | df.tail() |
df.describe() | DataFrame'in istatistiksel özetini görüntüleme | df.describe() |
np.array() | Dizi oluşturma | np.array([1, 2, 3, 4]) |
np.arange() | Bir dizi içinde belirli aralıklarla sayılar üretme | np.arange(0, 10, 2) |
df.iloc[] | DataFrame içinde belirli satırları ve sütunları seçme | df.loc[0:4, ['Sütun1', 'Sütun2']] |
Ayrıca, Matplotlib ve Seaborn gibi grafik kütüphaneleri, verilerin görselleştirilmesi için sık sık kullanılır. Bu kütüphaneleri kullanarak çizgi grafikleri, histogramlar, scatter plotlar gibi birçok grafik çeşidini oluşturabilirsiniz.
Örneğin, aşağıdaki kod bir çizgi grafiği oluşturur:
import matplotlib.pyplot as pltplt.plot(x, y)plt.title("Başlık")plt.xlabel("X eksen etiketi")plt.ylabel("Y eksen etiketi")plt.show()
Yukarıdaki kodda, verilerin x ve y eksenleri için gösterildiği bir çizgi grafiği oluşturduk. Aynı şekilde, Seaborn kütüphanesi kullanarak da benzer grafikler oluşturabilirsiniz.
NumPy ve Pandas kütüphanelerinin kullanımı, veri analizi ve görselleştirme işlerinde oldukça kullanışlıdır. Yapılan örneklerle anlaşılacağı üzere, bu kütüphaneler ile verilerinizi hızlı ve kolay bir şekilde analiz edebilirsiniz.