Pandas kütüphanesi, CSV dosyalarının okunması ve yazılması konusunda kullanıcılarına büyük kolaylık sağlar Bu makalede, Pandas ile CSV dosyalarını nasıl okuyabileceğinizi ve yazabileceğinizi öğrenebilirsiniz Adım adım anlatımlarla size rehberlik eden yazımızı okuyun!

Pandas, Python programlama dili için güçlü bir veri işleme ve analiz kütüphanesidir. Pandas, popüler veri formatlarından biri olan CSV dosyalarını okuma ve yazma konusunda oldukça etkilidir. Bu rehberde, Pandas kütüphanesi kullanarak CSV dosyaları üzerinde okuma ve yazma işlemlerinin nasıl yapılacağına dair ayrıntılı bilgiler yer almaktadır.
CSV (Comma Separated Values), veri tabanlarını veya elektronik tablolama programlarını kullanılmadan verileri saklamak ve paylaşmak için yaygın olarak kullanılan bir dosya formatıdır. CSV dosyaları, basit bir metin formatında veri tutar ve veriler arasında virgül ayırıcıları kullanılır. Pandas kütüphanesi, CSV dosyalarına kolayca erişebilir ve bu dosyalar üzerinde çeşitli işlemler gerçekleştirebilirsiniz.
CSV dosyalarını okumak için Pandas'ın read_csv() fonksiyonu kullanılır. Bu fonksiyon, CSV dosyalarını okumak ve Pandas dataframe'ine dönüştürmek için kullanılır. Ayrıca, Pandas'ın read_excel() fonksiyonu, Excel dosyalarını okumak için kullanılır.
CSV dosyalarını yazmak için ise Pandas'ın to_csv() fonksiyonu kullanılır. Bu fonksiyon, dataframe'deki verileri CSV dosyası olarak kaydetmenize olanak tanır. Ayrıca, to_excel() fonksiyonu, dataframe'deki verileri Excel dosyaları olarak kaydetmenizi sağlar.
Pandas'ı kullanarak CSV dosyaları üzerinde okuma ve yazma işlemlerinin nasıl yapılacağına dair daha fazla bilgi için, kod örneklerimize bakın. Ayrıca, CSV dosyaları üzerinde veri analizi yapmak için kullanılabilecek Pandas fonksiyonlarını da keşfedebilirsiniz.
Pandas Nedir?
Pandas, Python programlama dilinde veri işleme ve analizi için kullanılan açık kaynaklı bir kütüphanedir. Pandas, NumPy kütüphanesine dayanır ve verileri hızlı ve etkili bir şekilde ele alarak sıralama, filtreleme, gruplama ve birleştirme gibi işlemleri gerçekleştirebilir.
Pandas, iki ana veri türü olan veri çerçeveleri (dataframes) ve seriler (series) üzerinde çalışır. Veri çerçeveleri, satır ve sütunlardan oluşan etiketli bir tablodur ve seriler, bir boyuta sahip etiketli bir dizidir.
Pandas'ın ana avantajı, birçok veri kaynağından veri alabilme yeteneğidir. CSV dosyalarından SQL veritabanlarına kadar birçok veri kaynağı Pandas ile işlenebilir. Ayrıca, Pandas'ın veri görselleştirme araçları sayesinde sonuçları grafiksel olarak da gösterebilirsiniz.
CSV Nedir?
CSV (Comma Separated Values), yani virgülle ayrılmış değerler, basit bir tablo biçimidir. Bu dosya biçimi, farklı programlar arasındaki veri transferi için sıklıkla kullanılır. Kullanıcılar tarafından oluşturulan verileri depolamak için basit bir seçenek olarak kullanılabilir.
CSV dosyaları ayrıca, büyük miktarda veriyi aynı anda güncellemek için kullanışlı bir işlev görebilir. Özellikle büyük veri gruplarında, verilerin CSV formatında tutulması, veri işleme ve analizi için ideal bir seçimdir.
CSV dosyaları, Excel veya Google Sheets gibi tablo düzenleme programlarında açılabilen ve düzenlenebilen bir dosya formatıdır. Bu da, farklı programlar arasında veri transferi yapmak için kullanıcılara büyük bir esneklik sağlar.
CSV Dosyaları Okuma
CSV dosyaları, verilerin sütunlar ve satırlar halinde depolandığı basit bir metin dosyasıdır. Pandas kütüphanesi, bu verileri okuyup işlemek için çok kullanışlı bir araçtır.
CSV dosyalarını okumak için kullanılan en yaygın fonksiyon 'read_csv()' fonksiyonudur. Bu fonksiyon, csv dosyasının yolunu belirttiğinizde, csv dosyasını bir 'DataFrame' nesnesi olarak okur. Okunan verileri sıralamak ve diğer verilerle birleştirmek için 'index_col' ve 'merge' parametrelerini kullanabilirsiniz.
Ayrıca, CSV dosyalarını okumak için 'read_excel()' fonksiyonu da kullanılabilir. Bu fonksiyon, Excel dosyalarını okuyabilir ve bu dosyaları bir 'DataFrame' nesnesi olarak döndürür.
Pandas kütüphanesi, CSV dosyalarını okuma işlemi sırasında birçok hata türüne neden olabilir. Bu hatalardan bazıları, yanlış dosya yolu, eksik veri veya yanlış karakter kodlamasıdır. Bu hataları önlemek için, verileri okumadan önce dosya yolunu doğru şekilde belirttiğinizden, verilerin tamamını içerdiğinden ve karakter kodlamasının doğru olduğundan emin olun.
read_csv( )
Pandas kütüphanesi, CSV dosyalarını okumak için yaygın olarak kullanılan read_csv( ) fonksiyonuna sahiptir. Bu fonksiyon, bir CSV dosyasını okumak ve bir tablo olarak pandas DataFrame nesnesine dönüştürmek için kullanılır. Fonksiyon, bir dizi parametre alır ve dosyanın okunmasına ilişkin birçok seçenek sunar.
Öncelikle, read_csv( ) fonksiyonu çeşitli parametrelerle kullanılabilir. Bunlar arasında, dosya yolu, ayırıcı karakter, sütun adları, satır başlıkları, yorum satırları ve diğer ayarlar yer alır. Yani, verinin nasıl okunacağını, hangi sütunların dahil edileceğini, ayırıcı karakterin ne olacağını ve diğer parametreleri belirleyebilirsiniz.
Aynı zamanda, read_csv( ) fonksiyonunun diğer avantajları da vardır. Örneğin, büyük veri setlerinde performans sorunu yaşanmaması için "chunksize" parametresi yardımıyla CSV dosyasının parçalara bölünebilir. Ayrıca, "na_values" parametresi sayesinde, belirli bir değerin "NaN" olarak tanımlanmasını sağlayabilirsiniz.
Aşağıda bir örnek kullanım gösterilmiştir:
import pandas as pddata = pd.read_csv('dosya_adı.csv', sep=',', header=0, index_col=0)print(data)
Bu örnekte, 'dosya_adı.csv' adlı bir CSV dosyası okunuyor. Dosyanın ayırıcı karakteri virgüldür ve ilk satır, başlık satırıdır. İlkindeki sütunlar, satır indeksleri olarak atanır. Okunan veriler pandas DataFrame nesnesinde "data" değişkenine kaydedilir ve print() fonksiyonu kullanılarak ekrana yazdırılır.
Sonuç olarak, read_csv( ) fonksiyonu, pandas kütüphanesi ile CSV dosyalarını okumak için oldukça kullanışlı bir araçtır. Parametre seçenekleri ve diğer avantajları sayesinde verilerin okunması sırasında birçok konuda kontrol sağlar.
read_excel( )
Pandas kütüphanesi ile Excel dosyaları da kolaylıkla okunabilir. Bunun için kullanabileceğiniz fonksiyon read_excel(). read_excel() fonksiyonu ile öncelikle Excel dosyasının yolunu belirtmeniz gerekiyor. Ardından, hangi sayfayı okuyacağınıza karar vermeniz gerekiyor. Varsayılan olarak, read_excel() fonksiyonu dosyanın ilk sayfasını okur. Okuduktan sonra, sonuç olarak bir DataFrame döndürür.
Aşağıdaki örnek kodda, read_excel() fonksiyonu kullanılarak bir Excel dosyası okunuyor:
import pandas as pd # Excel dosyasını oku df = pd.read_excel("ornek_excel.xlsx", sheet_name="Sheet1")# DataFrame'i ekrana yazdır print(df)
Bu örnek kodda, örnek_excel.xlsx adlı bir Excel dosyası okunuyor ve sadece Sheet1 sayfası okunuyor. Daha sonra, DataFrame ekrana yazdırılıyor.
read_excel() fonksiyonu, parametreler aracılığıyla okunan verilerin manipüle edilmesine olanak tanır. Örneğin, okunan satırların sınırlandırılması veya sütunların seçilmesi mümkündür. Ayrıca, farklı Excel dosya türlerini okumak için de kullanılabilir. Örneğin, .xls uzantılı dosyaları okumak için xlrd adlı bir kütüphane kurmanız gerekiyor.
read_excel() fonksiyonu hakkında daha fazla bilgi edinmek için, Pandas kütüphanesi belgelerine göz atabilirsiniz.
CSV Dosyaları Yazma
Pandas kütüphanesi sadece CSV dosyalarını okumakla kalmaz, aynı zamanda CSV dosyalarını oluşturmanıza da olanak tanır. Basit bir örnekle, bir veri kümesini bir CSV dosyasına yazalım.
Names | Age | Gender |
---|---|---|
Alice | 25 | Female |
Bob | 32 | Male |
Charlie | 47 | Male |
Bu veri kümesini temsil eder. Şimdi, bu veri kümesini pandas DataFrame'ine dönüştürelim.
import pandas as pd data = {'Names': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 32, 47], 'Gender': ['Female', 'Male', 'Male']} df = pd.DataFrame(data) df.head()
Bu kod DataFrame'imize sahip olacak. Artık, bu verileri bir CSV dosyasına yazma zamanı geldi.
df.to_csv('verikumesi.csv')
Bu kod, mevcut DataFrame'i 'verikumesi.csv' adlı bir CSV dosyasına yazacaktır. Ayrıca, aşağıdaki seçenekleri de ekleyebilirsiniz. Bu seçenekler CSV dosyasına yazılan verileri düzenlemeye yardımcı olabilir:
- index: Satır etiketleri dahil edilmeli mi? True/False
- header: Sütun başlıkları dahil edilmeli mi? True/False
- sep: Sütunlar arasına hangi ayırıcı karakterin konulacağı
Bu seçeneklerle birlikte bir örnek aşağıda verilmiştir:
df.to_csv('verikumesi.csv', index=False, header=False, sep=';')
Bu kod, 'verikumesi.csv' adlı bir dosyaya DataFrame'in verilerini yazacaktır. Ayrıca, satır etiketleri ve sütun başlıkları da dahil edilmeyecektir ve ayırıcı karakter ';' simgesi olacaktır.
to_csv( )
Bu bölümde, pandas kütüphanesi kullanarak CSV dosyalarını yazmak için kullanılan to_csv() fonksiyonuna dair detaylı bir açıklama yapacağız. Bu fonksiyon, DataFrame veri yapısının içeriğini CSV dosyasına yazmak için kullanılır.
to_csv() fonksiyonu, birkaç önemli argüman kabul eder. İlk argüman, dosya yolunu belirtir - bu, verilerin yazılacağı CSV dosyasının konumunu belirtir. İkinci argüman, dosyanın kodlamasını belirtir. Varsayılan olarak, dosya UTF-8 kodlaması kullanarak yazılır. Ancak, farklı bir kodlama istenirse, bu argüman aracılığıyla belirtilebilir.
Başka bir argüman, sütun seçimine izin verir. Bu argüman, hangi sütunun CSV dosyasına yazılacağını belirlemeye yardımcı olur. Varsayılan olarak, Tüm sütunlar yazdırılır, ancak sadece belirli sütunları yazdırmak istiyorsanız, daha spesifik bir argüman kullanmanız gerekir.
to_csv() fonksiyonu ayrıca, sıralama düzenini belirlemek için de argüman kabul eder. Bu argüman varsayılan olarak None'dur, ancak sıralama gerekiyorsa, ardışık sıralama veya ters sıralamayı belirleyebilirsiniz.
Bu fonksiyon ayrıca, boş değerlerin nasıl ele alınacağını belirlemek için de argümanlar kabul eder. Varsayılan olarak, boş değerleri "NaN" olarak yazdırır. Ancak, farklı bir belirteç kullanmak isterseniz, bu argümanlar aracılığıyla belirtilebilir.
Örnek olarak, şu kodda bir DataFrame oluşturulur ve bu DataFrame'in içeriği bir CSV dosyasına yazılır:
```import pandas as pddf = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'],'count': [3, 2, 1]})df.to_csv('fruit_count.csv', index=False)```Bu kod, bir 'fruit_count.csv' dosyası oluşturacak ve bu dosya, aşağıdaki içeriğe sahip olacak:
```fruit,countapple,3banana,2orange,1```
to_csv() fonksiyonu kullanımı oldukça basittir ve etkili bir şekilde kullanılarak verilerinizi CSV dosyalarına yazabilirsiniz.
to_excel( )
Pandas kütüphanesi, CSV dosyaları dışında Excel dosyalarını da kolaylıkla işleyebilir. Bu amaçla, to_excel() fonksiyonu kullanılır. Bu fonksiyon, pandas veri çerçevesini bir Excel dosyasına yazdırır. Dosya adı ve yolunu belirtebilmek için fonksiyona doğru parametreler vermek gerekir.
Örneğin;
df.to_excel('örnek.xlsx', index=False)
Bu örnekte index=False parametresi, indekslerin dosyaya yazdırılmamasını sağlar. Eğer indeksler de dosyaya dahil edilmek istenirse bu parametrenin değeri index=True yapılablir.
Bu fonksiyon ayrıca, verilerin yazılacağı sayfa adını da belirleyebilir. Bu amaçla, sheet_name parametresi kullanılır. Örneğin;
df.to_excel('örnek.xlsx', index=False, sheet_name='Sayfa1')
Bu örnekte sheet_name='Sayfa1' parametresi, verilerin 'Sayfa1' adlı sayfaya yazdırılmasını sağlar. Eğer söz konusu sayfa önceden mevcut değilse, otomatik olarak oluşturulur.
Ek olarak, bazı ekstra parametrelerle fonksiyon daha da özelleştirilebilir. Örneğin header parametresi, sütun başlıklarının dahil edilip edilmeme durumunu belirleyebilir. Varsayılan olarak, sütun başlıkları dosyaya yazılır. Eğer sütun başlıklarının yazılmamasını istiyorsanız, header=False olarak belirtebilirsiniz.
to_excel() fonksiyonu ile ilgili olarak diğer parametreler ve fonksiyonlar için pandas belgelerine göz atabilirsiniz.
Pandas ve CSV dosyaları kullanırken karşılaşılabilecek sorunlar
CSV dosyaları, tablo formatındaki verileri saklamak için kullanılır ve çeşitli uygulamalarda kullanılır. Ancak, CSV dosyalarını okurken ve yazarken bazı yaygın hatalar yapılabilir. Bu sorunları çözmek için aşağıdaki ipuçlarına dikkat etmek önemlidir:
CSV dosyalarının kodlaması hakkında birçok farklı seçenek vardır. Ancak, dil dosya formatı ve kodlamasının uyumsuz olması durumunda okuma ve yazma sırasında sorunlar yaşanabilir. Bu nedenle, mümkünse, UTF-8 kodlama kullanmak önemlidir.
CSV dosyalarının ayraçları, virgül veya noktalı virgül gibi farklı karakterler olabilir. Ancak, bazı ayraçlar diğerleri kadar yaygın değildir. Bu nedenle, ayraç karakterlerini doğru bir şekilde belirlemek gerekir. Ayrıca, ayraç karakterlerinde farklılık olması durumunda, uygun ayraç karakterleri kullanılarak bu sorunlar çözülebilir.
CSV dosyaları, boş satırlar içerebilir ve bu durum bazen okuma işleminde sorunlara neden olabilir. Bu nedenle, veri analizi veya diğer işlemlerden önce boş satırların kaldırılması önemlidir.
CSV dosyaları, farklı veri türlerini içerebilir ve bazen bu türlerin otomatik olarak algılanması mümkün olmayabilir. Bu nedenle, veri türlerini doğru bir şekilde belirlemek ve gerektiğinde bunları düzenlemek önemlidir.
Bu ipuçları doğru bir şekilde uygulandığında, CSV dosyalarının okunması ve yazılması daha kolay hale gelir.
Kod Örnekleri
Pandas kütüphanesi, CSV dosyaları üzerinde veri manipülasyonu yapmak için oldukça popüler bir kütüphanedir. Bu kütüphane, Python programlama dili ile birlikte kullanılabilmektedir. Pandas kütüphanesi ile CSV dosyalarını okumak ve yazmak oldukça kolaydır. Aşağıda, bu işlemleri gerçekleştirmek için kullanılacak olan kod örnekleri ve açıklamaları yer almaktadır.
Pandas kütüphanesinde yer alan "read_csv()" fonksiyonu, CSV dosyasını okumak için kullanılabilir. Bu fonksiyon, CSV dosyasını bir DataFrame olarak okur. Aşağıdaki örnek kodda, sample.csv adlı bir dosyadan "data" adlı bir DataFrame oluşturulmaktadır.
import pandas as pddata = pd.read_csv('sample.csv')
Bu örnekte, "sample.csv" dosyası, Python programının bulunduğu dizinde yer almaktadır. Eğer farklı bir dizinde yer alıyorsa, dosya yolunu belirtmek gerekmektedir.
Pandas kütüphanesi ile CSV dosyalarını yazmak için "to_csv()" fonksiyonu kullanılabilir. Bu fonksiyon, DataFrame'i CSV dosyasına yazarak kaydeder. Aşağıda, "data" adlı DataFrame'in, "output.csv" adlı bir dosyaya kaydedilmesi örneği verilmiştir.
import pandas as pddata.to_csv('output.csv')
Bu örnekte de, "output.csv" dosyası, Python programının bulunduğu dizinde oluşturulacaktır. Farklı bir dizine kaydetmek isterseniz, dosya yolunu belirtmek gerekmektedir.
Bu şekilde, Python programlama dili ile birlikte kullanılabilecek olan Pandas kütüphanesi ile CSV dosyaları üzerinde okuma ve yazma işlemleri kolaylıkla gerçekleştirilebilir.
CSV dosyaları üzerindeki veri analizi
CSV dosyaları sadece veri depolamakla kalmaz, aynı zamanda depolanan veriler üzerinde veri analizi yapmak da mümkündür. Pandas kütüphanesi, CSV dosyaları üzerinde veri analizi yapmak için oldukça kullanışlı bir araçtır. Bu bölümde, CSV dosyaları üzerinde veri analizi yapmak için kullanılabilecek bazı pandas fonksiyonlarına genel bir bakış atacağız.
groupby() fonksiyonu, belirli bir sütuna veya sütunlara göre verileri gruplandırmak için kullanılır. Bu gruplar üzerinde daha sonra farklı işlemler yapılabilir. Örneğin, bir CSV dosyasında bulunan bir "şehir" sütunu varsa, groupby() fonksiyonu bu sütuna göre verileri gruplandırabilir. Gruplama işleminden sonra her şehir için ortalama bir değer hesaplanabilir.
describe() fonksiyonu, bir veri kümesinin istatistiksel özetini sağlar. Bu fonksiyon, verilerdeki minimum, maksimum, ortalama, standart sapma vb. değerleri sağlar. Örneğin, bir CSV dosyasında bulunan bir "yaş" sütunu varsa, describe() fonksiyonu bu sütuna göre verilerin ortalamasını, standard sapmasını, minimum ve maksimum yaşları vb. sağlar.
value_counts() fonksiyonu, belirli bir sütundaki benzersiz değerlerin sayısını hesaplar. Bu fonksiyon, bir CSV dosyasında bulunan bir "renk" sütunundaki benzersiz renklerin sayısını verirken, bir diğer sütundaki benzersiz isimlerin sayısını da verir.
Bu fonksiyonların yanı sıra, bir CSV dosyası üzerinde farklı veri analizleri yapmak için başka birçok pandas fonksiyonu da mevcuttur. Bu fonksiyonlar, büyük veri kümesi analiz etmek isteyenler için oldukça kullanışlıdır.
groupby( )
Pandas kütüphanesi, veri analizi yaparken en çok kullanılan kütüphanelerden biridir. Bu kütüphane, bir CSV dosyasındaki verileri okumak ve işlemek için kullanılabilir. groupby() fonksiyonu, bir DataFrame'in bir veya daha fazla sütunu tarafından gruplanmasına ve daha sonra bu gruplar üzerinde bir işlev uygulanmasına izin verir. Örneğin, bir şirketin çalışanlarının maaşlarını içeren bir CSV dosyasını düşünelim. groupby() fonksiyonu kullanarak, her bir çalışanın maaşının ortalama değerini hesaplamak için aşağıdaki kodu kullanabiliriz:
```import pandas as pd
df = pd.read_csv('maaslar.csv')grouped = df.groupby('Calisan Adi')print(grouped.mean())```
Bu kod, her bir çalışanın maaşının ortalaması ile sonuçlanan gruplanmış bir DataFrame döndürür. groupby() fonksiyonu aynı zamanda çoklu sütun gruplamasına da izin vermektedir. Bu durumda, gruplama sütunlarını bir listeye geçirerek aşağıdaki gibi kullanılabilir:
```grouped = df.groupby(['Calisan Adi', 'Departman'])```
groupby() fonksiyonu ile birleştirilerek bazı verileri daha anlamlı hale getiren başka fonksiyonlar da bulunmaktadır. Bunlardan biri, aggregrate() fonksiyonudur. Bu fonksiyon, gruplandırılmış veriler üzerinde bir veya daha fazla işlev uygulamak için kullanılır. Örneğin, her çalışanın maaşının toplamını ve en yüksek maaşı hesaplamak için aşağıdaki kod kullanılabilir:
```grouped = df.groupby('Calisan Adi')print(grouped['Maas'].sum())print(grouped['Maas'].max())```
Bir diğer faydalı fonksiyon ise transform() fonksiyonudur. Bu, gruplandırılmış veriler üzerinde bir işlevi uygulamak ve sonucu asıl DataFrame'e geri göndermek için kullanılır. Örneğin, her bir çalışanın maaşının, o departmanda çalışan tüm kişilerin maaşlarının ortalamasıyla karşılaştırılmasını istediğimizde şu kodu kullanabiliriz:
```grouped = df.groupby('Departman')df['Ortalama'] = grouped['Maas'].transform('mean')```
Bu kod, her bir çalışanın departmanındaki diğer kişilerin maaş ortalaması ile karşılaştırılan bir "Ortalama" sütunu ekler. Pandas'ın groupby() fonksiyonu, veri analizi işlemlerini daha da kolaylaştıran güçlü bir araçtır.
describe( )
Pandas kütüphanesi, veri analizi ve veri manipülasyonunda oldukça kullanışlı bir araçtır. CSV dosyaları üzerinde veri analizi yapmanın yanı sıra, bu dosyaları okuma ve yazma işlemlerini de kolaylaştırır. Pandas fonksiyonlarından biri olan describe() fonksiyonu, bir CSV dosyasında bulunan sayısal sütunların istatistiksel özetlerini almak için kullanılır.
Describe() fonksiyonu, bir DataFrame'in (CSV dosyası olarak düşünebiliriz) tüm istatistiksel özetlerini tek bir komutla elde etmeyi sağlar. Bu istatistikler, sütundaki maksimum, minimum, ortalama, standart sapma, medyan, 1. ve 3. çeyrekler gibi önemli istatistiksel bilgilerdir.
Bir CSV dosyasında bulunan verilerin dağılımını ve merkezi eğilimini anlamak isteyen bir veri analisti, describe() fonksiyonu ile bu istatistikleri elde ederek hızlı bir şekilde bir genel bakış yapabilir. Örneğin, bir satıcı, ürünleri hakkında bir CSV dosyası tutarken, ürünlerin fiyatları ve satış rakamları gibi sayısal verileri tutabilir. Bu verileri describe() fonksiyonu ile analiz ederek, en çok satılan ürünleri, en yüksek fiyat aralıklarını ve genel fiyat ve satış istatistiklerini görebilir.
describe() fonksiyonunun bir başka önemli özelliği de, sadece sayısal sütunlarla çalışmasıdır. Dolayısıyla, CSV dosyasında yer alan bir metin sütunu, describe() fonksiyonu ile analiz edilemez. Bu durumda sadece sayısal sütunları seçerek, bu sütunların istatistiksel özetlerini analiz etmek daha doğru sonuçlar verecektir.
Parametre | Açıklama |
---|---|
percentiles | Yüzdelik dilimleri belirler. Default olarak 25, 50, 75. |
include | İncelenen veri tiplerini belirler. Default olarak sadece sayısal veri tipleri incelenir. |
exclude | İncelenmeyecek veri tiplerini belirler. |
- Örnek kullanım:
import pandas as pdveriler = pd.read_csv("urun_bilgileri.csv")print(veriler.describe())
Yukarıdaki kod, "urun_bilgileri.csv" adlı bir CSV dosyasındaki sayısal sütunların istatistiksel özetlerini görüntüleyecektir.
value_counts( )
Pandas kütüphanesi, CSV dosyaları üzerindeki verileri analiz etmek ve manipüle etmek için oldukça faydalı bir araçtır. Bu araç seti içinde yer alan value_counts( ) fonksiyonu, verilerin bir sütundaki benzersiz değerlerinin sayısını bulmak için kullanılır. Fonksiyon sütundaki tüm benzersiz değerleri sayar ve sonuç olarak bir dizi olarak döndürür. Bu dizi, sütundaki her benzersiz değeri ve o benzersiz değere sahip kayıt sayısını içerir.
Bu fonksiyon özellikle kategorik verileri analiz etmek için kullanışlıdır. Örneğin, bir müşteri veri kümesinde her müşterinin yaşını içeren bir sütun varsa, value_counts( ) fonksiyonu bu sütundaki her benzersiz yaş değerinin kaç müşteri tarafından paylaşıldığını sayacaktır. İşte bir örnek:
Yaş | Müşteri Sayısı |
---|---|
25 | 10 |
30 | 15 |
35 | 8 |
Bu tablo, veri kümesindeki müşterilerin yaşlarının dağılımını gösterir. Value_counts( ) fonksiyonunun sonucu olarak, 25 yaşında 10 müşteri, 30 yaşında 15 müşteri ve 35 yaşında 8 müşteri olduğu görülür.
Bunun yanı sıra, value_counts( ) fonksiyonuna eklenen normalize parametresi kullanılarak, bu veriler yüzde cinsinden de hesaplanabilir. Örneğin, şu şekilde kullanılabilir:
df['Yaş'].value_counts(normalize=True)
Bu komut, müşterilerin yaş verilerini gösterecektir, ancak sonuçlar yüzde cinsinden ifade edilecektir. Bu özellik özellikle büyük veri kümeleri üzerinde çalışılırken, verilerde daha iyi bir fikir elde edilmesini sağlar.