NumPy ve Pandas gibi popüler Python kütüphaneleri ile veri görselleştirmeyi öğrenin Bu eğitimde, veri analizini basitleştiren araçları kullanarak, veri setlerinizi daha anlaşılır ve ilginç hale getireceksiniz İleri seviyede veri analizi yapmak isteyen herkes için ideal bir eğitim!
Bu makale, hem Python dilinde kullanılabilecek hem de veri analizi ve görselleştirme konularında oldukça faydalı olan NumPy ve Pandas kütüphaneleri hakkında bilgi vermektedir. Bu kütüphaneler, özellikle verilerin çeşitli yöntemlerle işlenmesi ve manipüle edilmesi konusunda oldukça başarılıdır. Ayrıca, verilerin farklı grafik ve görselleştirme yöntemleri ile gösterilmesine de imkan tanırlar. Bu nedenle, bu kütüphanelerin kullanımı sayesinde, veri analiz ve görselleştirme işlemleri daha hızlı, etkili ve kolay bir şekilde gerçekleştirilebilmektedir.
NumPy ve Pandas Nedir?
NumPy, verilerin bilimsel ve matematiksel hesaplamalarında kullanılan bir Python kütüphanesidir. NumPy kütüphanesi, çok boyutlu dizileri ve matris işlemlerini kolaylaştırmak için hazır fonksiyonlar sağlar. Ayrıca, hızlı ve verimli hesaplama yapabilen araçlar sunar. Pandas ise, verilerin depolanması, işlenmesi ve manipüle edilmesi için kullanılan bir Python kütüphanesidir. Hızlı ve kolay bir şekilde büyük veri kümeleri üzerinde işlem yapmaya imkan tanır. Tablo şeklindeki verilerin işlenmesi ve analizi için özel olarak tasarlanmıştır.
NumPy ve Pandas, Python dilinde veri bilimi alanında en yaygın kullanılan kütüphaneler arasındadır. Bu kütüphaneler, geniş bir işlevselliğe sahip olmanın yanı sıra, açık kaynak kodlu olmaları sebebiyle sürekli olarak geliştirilebilir ve kullanıcılara ücretsiz olarak sunulur. Bu nedenle, veri bilimi alanında çalışanların veya öğrenmeye çalışanların bu kütüphaneleri bilmeleri, veri manipülasyonu ve görselleştirme işlemlerinde daha verimli olmalarına yardımcı olacaktır.
NumPy ve Pandas ile Veri Manipülasyonu
NumPy ve Pandas kütüphaneleri, verilerin işlenmesi ve manipüle edilmesi için birçok fonksiyon sağlar. NumPy ile, sıfırdan diziler oluşturulabilir ve mevcut diziler üzerinde çeşitli işlemler yapılabilir. Bu işlemler arasında, bir diziye matematiksel işlemler uygulama, dizi elemanlarını yeniden şekillendirme, filtreleme, toplama ve dizi elemanlarının birleştirilmesi bulunur.
Pandas, verilerin DataFrame formatında yönetilmesine olanak tanır. Bu, tablo formatındaki verilerin kolayca işlenmesine ve manipüle edilmesine olanak tanır. Pandas ile, verilerin sıralanması, gruplanması ve dizi elemanlarına erişimi kolaydır. Bunun yanı sıra, Pandas, tablo verilerinde eksik verilerin yerine konmasına ve verilerin analiz edilmesine yardımcı olan birçok fonksiyon sunar.
NumPy ve Pandas, verilerin işlenmesi ve manipüle edilmesinde çok sayıda işlev sağlar. Bu kütüphaneler, neredeyse her türde veri için kullanılabilir ve verilerin işlenmesini, analiz edilmesini ve görselleştirilmesini daha hızlı ve kolay hale getirir.
NumPy Array'leri Oluşturma
NumPy, Python'da kullanılan bir bilimsel hesaplamalar kütüphanesi olarak tanımlanabilir. Bu kütüphane ile sıfırdan dizi oluşturabilir ve mevcut olan diziler üzerinde işlemler yapabilirsiniz. Dizi oluşturmak için 'np.array()' fonksiyonu kullanılır. Bu fonksiyon ile dizinin boyutları belirlenir ve öğeleri manuel olarak eklenebilir.
Örnek Kod | Çıktı |
---|---|
np.array([1,2,3]) | array([1, 2, 3]) |
np.array([[1, 2], [3, 4]]) | array([[1, 2], [3, 4]]) |
Eğer diziyi belirli bir değerle doldurmak isterseniz 'np.zeros()' veya 'np.ones()' fonksiyonlarını kullanabilirsiniz. Bu yöntem ile dizi boyutları ve tipi belirlenir ve öğeleri belirlediğiniz değerle doldurulur.
Örnek Kod | Çıktı |
---|---|
np.zeros((2,3)) | array([[0., 0., 0.], [0., 0., 0.]]) |
np.ones((2,3)) | array([[1., 1., 1.], [1., 1., 1.]]) |
NumPy dizileri üzerinde matematiksel işlemler yapmak da mümkündür. Dizi üzerindeki her bir öğe için belirlediğiniz işlem uygulanır. Örneğin, bir dizinin herbir öğesini iki ile çarpmak için 'np.multiply()' fonksiyonu kullanılabilir.
Örnek Kod | Çıktı |
---|---|
arr = np.array([1,2,3]) np.multiply(arr, 2) | array([2, 4, 6]) |
NumPy dizileri üzerinde filtreleme işlemi de yapılabilir. Örneğin, belirli bir değerden küçük olan öğeleri seçmek için 'arr[arr<2]' şeklinde bir ifade kullanılabilir.
Örnek Kod | Çıktı |
---|---|
arr = np.array([1,2,3]) arr[arr<2] | array([1]) |
Dizi Oluşturma Fonksiyonları
NumPy kütüphanesi, farklı şekiller ve boyutlarda matrisler oluşturmak için birkaç farklı fonksiyon sağlar. Bu fonksiyonlar çoğunlukla arange(), linspace(), ve random() olarak adlandırılır.
- arange(): Bu fonksiyon, belirtilen bir başlangıç, bitiş ve artış değeri temel alarak bir dizi oluşturur. Örneğin:
np.arange(0, 10, 2)
, 0 ile 10 arasındaki sayıları 2'şer 2'şer arttırarak bir dizi oluşturur. - linspace(): Bu fonksiyon, belirtilen bir başlangıç, bitiş ve boyut değeri temel alarak bir dizi oluşturur. Örneğin:
np.linspace(0, 1, 5)
, 0 ile 1 arasındaki sayıları, 5 farklı sayı elde edene kadar eşit aralıklarla bir dizi oluşturur. - random(): Bu fonksiyon, belirtilen bir boyutta rastgele sayılardan oluşan bir dizi oluşturur. Örneğin:
np.random.rand(2, 2)
, 2 satır ve 2 sütundan oluşan bir matris oluşturur ve rastgele sayılarla doldurur.
Bu fonksiyonlar, NumPy dizilerinin oluşturulmasında ve modifiye edilmesinde oldukça kullanışlıdır.
Dizi Üzerinde İşlemler Yapma
NumPy dizileri, Python programlama dilinde kullanılan birçok matematiksel işlemin kolayca yapılabilmesine imkan tanır. Örneğin, toplama, çıkarma, bölme ve çarpma işlemleri gibi temel matematiksel işlemler, NumPy dizileri kullanılarak sıfırdan yazılmadan kolayca yapılabilir. Ayrıca, NumPy dizileri üzerinde filtreleme işlemleri de yapılabilir.
NumPy, düzenli Python dizilerinden farklı olarak matematiksel işlemler yapmanıza imkan tanıyan hızlı, etkili ve basit bir çözümdür. NumPy dizileri, nümerik verilerle çalışan filtreleme işlemlerini de çok daha kolay ve hızlı bir şekilde yapmanızı sağlar. Örneğin, bir dizide bulunan elemanların yalnızca belirli bir aralıkta olanlarına erişmek için kullanabileceğiniz farklı filtreleme teknikleri vardır.
Bu işlemler yapılırken, kullanıcının hız ve güvenlik açısından endişelenmesi gerekmez. NumPy dizileri, işlemleri düzenli Python dizilerinden çok daha hızlı bir şekilde gerçekleştirirler.
Pandas DataFrame'leri Oluşturma
Pandas, verilerin kolayca yönetilmesine ve DataFrame formatında düzenlenmesine olanak sağlar. DataFrame, birçok veri tipini içeren bir tablo formatıdır ve veriler sütun ve satır şeklinde düzenlenir.
Pandas ile DataFrame oluşturmak için öncelikle verilerin okunması gerekir. Bu veriler, read_csv(), read_excel() gibi fonksiyonlar kullanılarak okunabilir ve DataFrame formatına dönüştürülebilir. DataFrame oluşturulduktan sonra, veriler sütunlara ve satırlara göre filtrelenerek işlemler yapılabilir.
Fonksiyon | Açıklama |
---|---|
read_csv() | CSV formatındaki verilerin okunması ve DataFrame formatına dönüştürülmesi |
read_excel() | Excel formatındaki verilerin okunması ve DataFrame formatına dönüştürülmesi |
DataFrame üzerinde yapılabilecek işlemler arasında sütunların seçilmesi, satırların filtrelenmesi, verilerin birleştirilmesi ve yeniden şekillendirilmesi bulunur. Bu işlemler, birçok veri analizi ve görselleştirme işlemi için temel gerekliliklerdir.
DataFrame Oluşturma Fonksiyonları
Pandas kütüphanesi, tablo şeklindeki verilerin DataFrame formatında düzenlenmesine olanak sağlar. Bu format, verilerin daha kolay işlenmesine ve yönetilmesine yardımcı olur. Pandas, verilerin birçok kaynaktan okunmasını sağlayan birkaç farklı fonksiyona sahiptir. Bunlar arasında en yaygın olanları read_csv() ve read_excel() fonksiyonlarıdır. read_csv() fonksiyonu, virgülle ayrılmış dosyaların okunmasını sağlarken, read_excel() fonksiyonu Excel dosyalarını okuyabilir.
Bu fonksiyonlar, verilerin doğru şekilde yüklenmesini ve DataFrame formatına dönüştürülmesini sağlar. Bu, verilerin daha kolay filtrelenmesi, sıralanması veya gruplanması gibi işlemler için uygun bir formata sahip olmasını sağlar. Ayrıca, bu fonksiyonları kullanarak verileri hızlı ve etkili bir şekilde yükleyebilir ve analiz edebilirsiniz.
DataFrame Üzerinde İşlemler Yapma
Dataframe'ler, veri manipülasyonu ve analizi için en yaygın kullanılan kütüphanelerden biri olan Pandas sayesinde verilerin düzenlenmesini ve işlenmesini kolaylaştırır. Veri analizi sırasında, verilerin filtrelenmesi, sıralanması ve gruplandırılması gibi birçok veri işlemi yapılmaktadır. Pandas, DataFrame'ler üzerinde bu gibi işlemler için birçok fonksiyon sağlar.
DataFrame'lerin filtrelenmesi gibi işlemler yapmak için 'loc' ve 'iloc' gibi fonksiyonlar kullanılır. 'loc', belirlenen koşulları sağlayan verileri seçmek için kullanılırken 'iloc', belirtilen satır ve sütun indeksleri arasındaki verileri seçmek için kullanılır. Sıralama işlemi ise 'sort_values()' fonksiyonu ile gerçekleştirilir.
- 'drop_duplicates()' fonksiyonu bir DataFrame'den yinelenen satırları kaldırmak için kullanılır.
- 'groupby()' fonksiyonu, belirlenen bir sütuna göre verilerin gruplandırılması için kullanılır.
- 'pivot_table()' fonksiyonu ise, belirli sütunları baz alarak verilerin toplandığı ve özetlendiği tablo oluşturmak için kullanılır.
Yukarıdaki işlemler, verilerin doğru şekilde analiz edilebilmesi ve yorumlanabilmesi için oldukça önemlidir. Pandas'ın bu gibi işlemler için sunduğu fonksiyonlar sayesinde veriler, çeşitli filtreleme ve sıralama koşullarına göre gruplandırılabilir, araştırmacıların daha verimli bir şekilde sonuçlara ulaşmasını sağlar.
Veri Görselleştirme
Verilerin görselleştirilmesi, anlaşılması ve yorumlanması için oldukça önemlidir. NumPy ve Pandas, verileri farklı görselleştirme yöntemleri ile görselleştirilmesine imkân tanır. NumPy ve Pandas, verilerin çizgi grafiği, histogram, scatter plot ve kutu grafiği gibi birçok görselleştirme yöntemi ile görselleştirilmesine imkan tanır.
Çizgi grafiği, bir veri setindeki değişiklikleri doğrusal bir çizgiyle gösterir. Histogram, bir veri setinin dağılımını ve yoğunluğunu gösterir. Scatter plot, iki değişken arasındaki ilişkiyi gösterir. Kutu grafiği, veri setinin çeyrekler arası aralık, minimum ve maksimum değerlerini ve aykırı değerleri gösterir.
NumPy ve Pandas kullanılarak verilerin bu görselleştirme yöntemleri ile görselleştirilmesi oldukça kolaydır. Veriler, önce bir NumPy veya Pandas veri yapısı olan ndarray veya DataFrame olarak işlenir. Daha sonra Matplotlib kütüphanesi kullanılarak farklı şekillerde görselleştirilebilir.
Örneğin, bir Pandas DataFrame üzerinde çizgi grafiği, scatter plot ve kutu grafiği oluşturabiliriz. Ayrıca, bir NumPy ndarray üzerinde histogram oluşturabiliriz. Bu görselleştirme yöntemleri verilerin anlaşılabilmesi için oldukça önemlidir.
Matplotlib Kullanarak Grafik Oluşturma
Matplotlib, Python geliştiricileri tarafından sıkça kullanılan bir görselleştirme kütüphanesidir. Verileri görselleştirmek için birçok farklı grafik türüne olanak sağlayan Matplotlib, çizgi grafikleri, histogramlar, scatter plotlar ve kutu grafikleri gibi birçok farklı grafik türünü destekler.
Matplotlib ile verilerin grafiğinin oluşturulması oldukça kolaydır. Grafik oluşturmak için öncelikle bir grafik nesnesi tanımlamak gerekmektedir. Ardından, çizgilerin, etiketlerin, renklerin ve arkaplanın belirlenmesi gibi detaylar grafik üzerinde ayarlanabilir.
Matplotlib aynı zamanda birçok farklı görselleştirme işlemini de destekler. Mesela, noktalar arasındaki ilişkiyi analiz etmek için scatter plotlar kullanılabilir. Box plotlar ise verilerin istatistiksel açıdan analiz edilmesine olanak tanır. Matplotlib'in sunduğu esneklikler sayesinde, istenilen her türlü grafik oluşturulabilir.
Çizgi Grafiği ve Histogram Oluşturma
Matplotlib, Python'da yaygın olarak kullanılan bir görselleştirme kütüphanesidir. Matplotlib ile, verilerin çizgi grafiği ve histogram formatında görselleştirilmesi mümkündür. Bu görselleştirme yöntemleri, verilerin farklı özelliklerinin gözlemlenmesi için uygundur.
Çizgi grafiği, verilerin zamana karşı değişimini gösterir. Örneğin, bir hissenin fiyatı zaman içinde nasıl değiştiğini göstermek için çizgi grafiği kullanılabilir. Matplotlib ile, çizgi grafiği oluşturmak için plot() fonksiyonu kullanılır. Bu fonksiyon, x ve y eksenindeki verileri alır ve çizgi grafiğini oluşturur.
Histogram, verilerin dağılımını gösterir. Örneğin, bir sınıftaki öğrencilerin notlarının dağılımını incelemek için histogram kullanılabilir. Matplotlib ile, histogram oluşturmak için hist() fonksiyonu kullanılır. Bu fonksiyon, verilerin sayısını belirli aralıklara böler ve her aralıkta kaç veri olduğunu görselleştirir.
Ayrıca, Matplotlib ile oluşturulan görselleştirmeler, renk, etiket ve çeşitli diğer özelliklerle özelleştirilebilir. Bu sayede, verilerin daha iyi bir şekilde analiz edilmesi ve yorumlanması mümkün hale gelir.
Sonuç olarak, Matplotlib ile çizgi grafiği ve histogram oluşturma yöntemleri, verilerin değişimi ve dağılımı hakkında önemli bilgiler sağlar. Bu yöntemlerin yanı sıra, Matplotlib ile oluşturulan görselleştirmeler, özelleştirilebilir özellikleriyle verilerin daha iyi bir şekilde analiz edilmesine olanak tanır.
Scatter Plot ve Kutu Grafiği Oluşturma
Scatter plot, verilerin nokta grafikleri formatında gösterilmesini ve bu noktaların iki boyutta nasıl dağıldığını analiz etmeyi sağlar. Bu grafik, iki değişken arasındaki ilişkinin görselleştirilmesi için kullanılır. Matplotlib ile scatter plot oluşturmak oldukça basittir. Öncelikle, x ve y koordinatları olarak kullanmak istediğiniz iki veri setine ihtiyacınız olacaktır. Daha sonra, plt.scatter() fonksiyonunu kullanarak bu veri setleri arasında bir scatter plot oluşturabilirsiniz.
Kutu grafiği ise, verilerin minimum, maksimum, medyan, çeyreklikler ve aykırı değerleri gibi temel istatistiklerini gösteren bir grafiktir. Bu grafik, veri kümesi içindeki dağılımı ve odak noktalarını belirlemek için oldukça faydalıdır. Matplotlib ile kutu grafiği oluşturmak da oldukça kolaydır. plt.boxplot() fonksiyonunu kullanarak, istediğiniz veri setindeki kutu grafiğini kolayca oluşturabilirsiniz. İster bir veri kümesinde bir kutu grafiği oluşturun, ister birden fazla veri kümesini karşılaştırın; kutu grafiği, verilerinizi anlamak için önemli bir araçtır.