Pandas kütüphanesi, veri analizi ve işleme için Python'da kullanılan önemli bir araçtır Bu kütüphane, veri tablolarını yönetmek ve çalışmalarınızı daha verimli hale getirmek için birçok fonksiyon sunar İhtiyaçlarınıza yönelik özelleştirilmiş veri çözümleri oluşturabilir, filtreleme, gruplama, sıralama, birleştirme veya dönüştürme işlemleri yapabilirsiniz Pandas'ın kullanımı oldukça basit ve Python'a aşina olan herkes tarafından kolayca öğrenilebilir Ayrıca, ücretsizdir ve topluluk desteği mevcuttur Pandas kütüphanesi, veri işleme işlerinizi daha akıcı ve verimli hale getirmek için harika bir araçtır!
Python programlama dilinde, veri manipülasyonu ve analizinde sıkça kullanılan Pandas kütüphanesi, büyük veri setlerini işlemek için kullanılır. Pandas, veri setlerinin yüklenmesi, temizlenmesi, manipülasyonu ve analizi için kullanılan bir araçtır. Ayrıca, veri analizi için birçok istatistiksel fonksiyon ve yöntemi de bünyesinde barındırır.
Bu yazıda, Pandas kütüphanesi nedir, nasıl yüklenir ve kullanılır gibi sorulara yanıt arayacağız. Pandas kütüphanesinin temel veri yapıları olan Series ve DataFrame hakkında bilgi sahibi olacak ve Pandas kütüphanesi ile yapabileceğimiz temel işlemler hakkında fikir edineceğiz. Ayrıca Pandas kütüphanesinin veri manipülasyonu için sağladığı fonksiyon ve yöntemler hakkında da bilgi vereceğiz.
Pandas Kütüphanesi Nedir?
Pandalar, Python programlama dilinde veri manipülasyonu için kullanılan bir kütüphanedir. Pandas, veri analizi ve veri işleme için birçok fonksiyon ve yöntem sağlar.
Pandas Kütüphanesi Nasıl Yüklenir?
Pandas kütüphanesi, Python dilinde veri manipülasyonu için kullanılan bir kütüphanedir. Pandas kütüphanesini yüklemek için birçok farklı paket yöneticisi kullanılabilir, en popüler olanları pip ve conda'dır.
Pip ile Pandas Kütüphanesi Yükleme:
Pandas kütüphanesini pip ile yüklemek oldukça basittir. Terminal ekranında,
pip install pandaskomutu yazarak kütüphaneyi yükleyebilirsiniz.
Conda ile Pandas Kütüphanesi Yükleme:
Eğer veri analizi ve bilimsel hesaplama için anaconda kullandığınızda, Pandas kütüphanesi zaten önceden yüklenmiş olarak gelecektir. Eğer yüklü değilse, aşağıdaki komutu Anaconda Prompt veya terminal ekranında çalıştırarak yükleyebilirsiniz:
conda install pandas
Pandas kütüphanesi, üçüncü taraf sitelerden paket indirerek kurulum tamamlanır. İnternet erişimine ihtiyaç duyacağından emin olmanız gerekir. Pip ve conda yöntemleri alternatif olsa bile oldukça popülerdir ve büyük ihtimalle çoğu durumda yüklemeniz için yeterli olacaktır.
Pip ile Pandas Kütüphanesi Yükleme
Pip (Python paket yöneticisi) kullanarak Pandas kütüphanesini yüklemek oldukça basittir. Bunun için öncelikle Python yüklü olmalıdır. Python yüklü ise, terminale pip install pandas
komutunu girerek kütüphanenin yüklenmesini sağlayabilirsiniz.
Ancak, bazı durumlarda kütüphane yüklenirken hata alınabilir. Böyle bir durumda öncelikle Python sürümü kontrol edilmeli, son sürüm yüklendiğinden emin olunmalıdır. Ayrıca, internet bağlantısının olup olmadığı kontrol edilmeli ve pip güncellenmelidir. Tüm bu adımlar yapıldıktan sonra yüklemeye tekrar başlanmalıdır.
Pandalar kütüphanesi yüklendikten sonra, terminale import pandas
komutu girilerek kullanıma hazır hale getirilebilir.
Conda ile Pandas Kütüphanesi Yükleme
Pandas kütüphanesi, Python programlama dilinde veri manipülasyonu için kullanılan bir kütüphanedir. Pandas kütüphanesi, paket yöneticileri olan pip ve conda ile yüklenebilir. Conda, anaconda veya miniconda kurduktan sonra kullanılabilecek bir paket yöneticisidir. Pandas kütüphanesi yüklemek için conda install pandas komutu kullanılır. Bu komut paketleri yükler ve kurulumu tamamlar. Ayrıca, conda paket yöneticisi, kurulum sırasında bağımlılık yönetimi de yapar.
Pandas Kütüphanesi Temel Veri Yapıları
Pandas kütüphanesi, veri manipülasyonu için kullanılan bir bir kütüphanedir. Bu kütüphane, iki temel veri yapısı olan Series ve DataFrame'i destekler.
Series, tek boyutlu etiketlenmiş bir dizidir. Bu veri yapısı, bir dizi veriyi ve bu verilerin etiketlerini içerir. Series veri yapısı, birden fazla veri tipini destekler. Liste, numpy dizisi veya sözlük kullanarak bir Series veri yapısı oluşturulabilir.
Bir Series veri yapısı, bir liste, numpy dizisi veya sözlük kullanılarak oluşturulabilir. Örneğin, aşağıdaki kodda bir series veri yapısı sözlük kullanılarak oluşturulur:
Etiket | Değer |
---|---|
A | 10 |
B | 20 |
C | 30 |
Bu veri yapısını oluşturmak için şu kodu kullanabilirsiniz:
import pandas as pddata = {'A': 10, 'B': 20, 'C': 30}series = pd.Series(data)print(series)
Series veri yapısı, iloc ve loc indeksleme yöntemleri ile indekslenebilir. İloc ile indeks numarası, loc ile etiket kullanarak indekslenebilir. Örneğin, aşağıdaki kodda, bir series veri yapısının "B" etiketli verisi iloc ile indekslenir:
import pandas as pddata = {'A': 10, 'B': 20, 'C': 30}series = pd.Series(data)print(series.iloc[1])
DataFrame, iki boyutlu etiketli bir veri yapısıdır. Bu veri yapısı, birden fazla Series veri yapısını içerir. DataFrame veri yapısı, farklı veri tiplerini destekler ve kolon adları ile satır etiketleri ile birlikte her bir veriye erişim sağlar. Bir liste, numpy dizisi veya sözlük kullanarak bir DataFrame veri yapısı oluşturulabilir.
Bir DataFrame veri yapısı, bir liste, numpy dizisi veya sözlük kullanılarak oluşturulabilir. Örneğin, aşağıdaki kodda, bir DataFrame veri yapısı sözlük kullanılarak oluşturulur:
Ad | Soyad | Yaş |
---|---|---|
Ahmet | Duran | 25 |
Melih | Yazıcı | 27 |
Elif | Can | 20 |
Bu veri yapısını oluşturmak için şu kodu kullanabilirsiniz:
import pandas as pddata = {'Ad': ['Ahmet', 'Melih', 'Elif'], 'Soyad': ['Duran', 'Yazıcı', 'Can'], 'Yaş': [25, 27, 20]}df = pd.DataFrame(data)print(df)
DataFrame veri yapısı, iloc ve loc indeksleme yöntemleri ile indekslenebilir. İloc ile indeks numarası ve kolon numarası, loc ile etiket ve kolon adı kullanılarak indekslenebilir. Örneğin, aşağıdaki kodda, bir DataFrame veri yapısının "Ahmet" satırındaki "Yaş" kolonu iloc ile indekslenir:
import pandas as pddata = {'Ad': ['Ahmet', 'Melih', 'Elif'], 'Soyad': ['Duran', 'Yazıcı', 'Can'], 'Yaş': [25, 27, 20]}df = pd.DataFrame(data)print(df.iloc[0, 2])
Series Veri Yapısı
Series, Pandas kütüphanesi içinde yer alan tek boyutlu bir veri yapısıdır. Dizilerin sadece tek bir veri tipi alabildiği aksine, Series veri yapısı farklı veri tiplerini içerebilir. Her veriye, indeks adı verilen ve sıralı veya belirtilen herhangi bir özellik olabilecek bir etiket atanabilir. Ayrıca, her verinin belirtilen indeksi bulunmaktadır.
Series veri yapısı, listeler, numpy dizileri veya sözlükler kullanılarak oluşturulabilir. Listeler veya diziler ile oluşturulduğunda etiketler otomatik olarak oluşur ve arka planda 0'dan başlayarak otomatik bir indeksleme gerçekleşir. Sözlükler kullanılarak oluşturulduğunda ise belirtilen anahtarlar etiket olarak atanır.
Seri veri yapısı, iloc (integer location) ve loc (location) yöntemleriyle indekslenebilir. iloc yöntemi, belirtilen indekslerin konumuna göre indeksleme yaparken, loc yöntemi belirtilen etiketlere göre indeksleme yapar.
Anahtar | Değer |
---|---|
0 | 10 |
1 | 20 |
2 | 30 |
3 | 40 |
Yukarıdaki örnekte, 0'dan 3'e kadar otomatik olarak indekslenmiş bir Seri veri yapısı görülmektedir.
- Pandas kütüphanesi, veri işleme, analiz ve manipülasyonu için birçok yol sunmaktadır.
- Seri veri yapısı, tek boyutlu bir veri yapısıdır ve farklı veri tiplerini içerebilir.
- Listeler veya diziler kullanılarak oluşturulduğunda indeksler otomatik olarak oluşur.
- Sözlükler kullanılarak oluşturulduğunda tanımlanan anahtarlar indeks olarak atanır.
- Seri veri yapısı, iloc ve loc yöntemleriyle indekslenebilir.
Series Veri Yapısı Oluşturma
Series veri yapısı, Pandas kütüphanesinde temel veri yapılarından biridir ve tek boyutlu etiketli bir dizidir. Series veri yapısı, liste, numpy dizisi veya sözlük kullanılarak oluşturulabilir.
Örneğin, aşağıdaki kod kullanılarak num_list adlı bir liste ile Series veri yapısı oluşturabiliriz:
Kod: | |
import pandas as pd | |
num_list = [1, 2, 3, 4, 5] | |
series = pd.Series(num_list) | |
print(series) | |
Çıktı: | |
0 1 | |
1 2 | |
2 3 | |
3 4 | |
4 5 | |
dtype: int64 |
Yukarıdaki örnekte, num_list adlı bir liste tanımlanır ve pd.Series() fonksiyonu kullanarak bu liste ile bir Series veri yapısı oluşturulur. Oluşturulan Series veri yapısı ekrana yazdırılır ve her bir liste elemanı numaralandırılmış olarak görülür.
Ayrıca, numpy dizisi veya sözlük kullanarak da bir Series veri yapısı oluşturulabilir. Bu şekilde oluşturulan Series veri yapıları da aynı şekilde indekslenebilir ve işlemler uygulanabilir.
Series Veri Yapısı İndeksleme
Series veri yapısı, iloc ve loc indeksleme yöntemleri ile indekslenebilir. İloc indeksleme yöntemi, konumlar veya numaralar kullanarak verilere erişmek için kullanılırken, loc indeksleme yöntemi, etiketler veya isimler kullanarak verilere erişmek için kullanılır. İki yöntem arasındaki fark, indeksleme yapılacak veri kümesinin türüne göre değişebilir. Aşağıda iloc ve loc indeksleme yöntemlerinin kullanımına örnekler verilmiştir.
iloc Kullanımı | loc Kullanımı |
---|---|
|
|
Yukarıdaki örneklerde, iloc indeksleme yöntemi konum veya numaralar kullanarak verilere erişirken, loc indeksleme yöntemi etiket veya isimler kullanarak verilere erişir.
DataFrame Veri Yapısı
Python programlama dilinde veri manipülasyonu yapmak için kullanılan Pandas kütüphanesi, iki ana veri yapısı olan Series ve DataFrame'i destekler. DataFrame, iki boyutlu etiketli bir veri yapısıdır ve tablo şeklinde görüntülenir. Satır ve sütunlardan oluşan bu tablo, her bir sütunun farklı bir veri tipinde olabileceği heterojen verileri depolamak için kullanılır.
DataFrame veri yapısı, liste, numpy dizisi veya sözlük kullanılarak oluşturulabilir. Veriler, tablo şeklinde yapılandırılır ve her sütun için bir veri tipi seçilir. Veriler, ilgili konuma göre satır ve sütunlarda yerleştirilir. Veri yapılarına daha kolay erişebilmek ve manipüle edebilmek için her bir satır ve sütun, bir etiketle (indeks) belirtilir. Böylece belirli bir satıra veya sütuna erişmek için indeksleme yöntemleri kullanılabilir.
Ad Soyad | Yaş | Cinsiyet |
---|---|---|
Ahmet Yılmaz | 32 | Erkek |
Esra Aydın | 28 | Kadın |
Ali Demir | 45 | Erkek |
Yukarıdaki örnekte, DataFrame veri yapısı ile oluşturulmuş bir tabloyu görüyoruz. Tablodaki her bir satır, bir veri kaydını (örnekte kişilerin adı, yaş ve cinsiyeti) temsil eder. Sütunlar, her bir veri tipini belirtir ve tablodaki her bir veri kaydı için aynı sütunlar kullanılır.
DataFrame Veri Yapısı Oluşturma
DataFrame veri yapısı, iki boyutlu etiketli bir veri yapısıdır. Bu yapının oluşturulması için kullanılabilecek temel veri tipleri; liste, numpy dizisi ve sözlüktür.
Örneğin, DataFrame veri yapısını bir liste kullanarak oluşturmak için aşağıdaki örneği kullanabilirsiniz:
Ad | Soyad | Yaş |
---|---|---|
Ahmet | Yılmaz | 30 |
Deniz | Özcan | 25 |
Emre | Kara | 27 |
- import pandas as pd: Pandas kütüphanesinin yüklenmesi
- data = [['Ahmet', 'Yılmaz', 30], ['Deniz', 'Özcan', 25], ['Emre', 'Kara', 27]]: Veri listesinin oluşturulması
- df = pd.DataFrame(data, columns=['Ad', 'Soyad', 'Yaş']): DataFrame veri yapısının oluşturulması
Bu örnekte, veriler bir liste içinde tanımlanmaktadır. Daha sonra, veriler columns argümanı kullanılarak DataFrame içindeki sütunlarla eşleştirilir.
DataFrame veri yapısının bir numpy dizisi kullanılarak oluşturulması için aşağıdaki örnek kullanılabilir:
- import pandas as pd: Pandas kütüphanesinin yüklenmesi
- import numpy as np: Numpy kütüphanesinin yüklenmesi
- data = np.array([['Ahmet', 'Yılmaz', 30], ['Deniz', 'Özcan', 25], ['Emre', 'Kara', 27]]): Veri numpy dizisi olarak tanımlanır
- df = pd.DataFrame(data, columns=['Ad', 'Soyad', 'Yaş']): DataFrame veri yapısının oluşturulması
Ayrıca, DataFrame veri yapısı bir sözlük kullanılarak da oluşturulabilir. Sözlük yapısını kullanmak, verilerin daha anlaşılır bir biçimde oluşturulmasına imkan tanır. Örnek olarak:
- import pandas as pd: Pandas kütüphanesinin yüklenmesi
- data = {'Ad': ['Ahmet', 'Deniz', 'Emre'], 'Soyad': ['Yılmaz', 'Özcan', 'Kara'], 'Yaş': [30, 25, 27]}: Veriler sözlük içinde tanımlanır
- df = pd.DataFrame(data): DataFrame veri yapısının oluşturulması
Bu şekilde, DataFrame veri yapısı oluşturma işlemi listeler ve örneklerle açıklanmıştır. İlerleyen konularda DataFrame içindeki verilerin işlenmesi ve değiştirilmesi hakkında bilgi verilecektir.
DataFrame Veri Yapısı İndeksleme
DataFrame veri yapısı, iki boyutlu etiketli bir veri yapısıdır. Pandas kütüphanesi, DataFrame veri yapısına yönelik indeksleme işlemleri için iki farklı yöntem sağlar:
- iloc: Satır ve sütun indeksleri ile indeksleme yapar.
- loc: Satır ve sütun etiketleri ile indeksleme yapar.
iloc: loc yöntemi kullanılabilmesi için DataFrame'in sütunlarından en az birinin etiketli olması gerekirken, iloc yöntemi sadece indeks numaraları kullanarak indeksleme yapar. İndeks numaraları sıfırdan başlayarak indekslenir.
loc: loc yöntemi, etiketleme ile indekslediği için tablo sütunlarından bir tanesinin isimleri olması gerekmektedir. loc yöntemi ile bir tabloya erişme işlemi şöyle gerçekleştirilir:
Sütun 1 | Sütun 2 | Sütun 3 | |
---|---|---|---|
Satır 1 | A | B | C |
Satır 2 | D | E | F |
Satır 3 | G | H | I |
Tabloda, tüm satırlara ve sütunlara erişmek istediğimizde, loc yöntemi aşağıdaki gibi kullanılabilir:
df.loc[:, :]
Bu ifade, tüm satırları ve tüm sütunları getirir. Tüm satırların ve yalnızca "Sütun 1" ve "Sütun 2"nin getirilmesi istendiğinde aşağıdaki kod kullanılabilir:
df.loc[:, ['Sütun 1', 'Sütun 2']]
Tek bir satır ve tüm sütunlar getirilmek istendiğinde ise:
df.loc['Satır 1', :]
Tek bir satır ve yalnızca "Sütun 2" getirilmek istendiğinde ise:
df.loc['Satır 1', 'Sütun 2']
iloc yöntemi üzerinden de aynı işlemler yapılabilir ancak indeks numaraları kullanılarak yapılır. Satırların indekslenmesi iloc yöntemiyle şöyle gerçekleştirilir:
df.iloc[0] # İlk satır
Sütunlar için de aynı yöntem kullanılır, fakat sütun numaraları kullanılarak indekslenir:
df.iloc[:, 1] # İkinci sütun
Belirli bir satır ve sütun getirilmek istendiğinde ise satır ve sütun indeks numaraları kullanılarak aşağıdaki şekilde yapılabilir:
df.iloc[0, 1] # İlk satır ve ikinci sütun
DataFrame veri yapısı üzerinde iloc ve loc yöntemleri kullanarak kolayca veri manipülasyonu yapılabilir.
Pandas Kütüphanesi Temel İşlemler
Pandas kütüphanesi, veri manipülasyonu için birçok kullanışlı işlev ve yöntem sunar. Bu yöntemler sayesinde verileri çağırabilir, filtreleyebilir, birleştirebilir ve dönüştürebilirsiniz.
Veri Okuma ve Yazma: Pandas kütüphanesi, birçok farklı veri formatını okuyabilir ve yazabilir. Örneğin, CSV, Excel, SQL veritabanları ve JSON gibi veri biçimlerini doğrudan okuyabilirsiniz. Bu, verileri farklı kaynaklardan toplayabileceğiniz anlamına gelir ve analizlerinizi hızlandırabilir.
Veri Temizleme: Pandas, boş değerleri, tekrar eden değerleri ve aykırı değerleri temizleyebilir. Verileri temizleyerek daha doğru sonuçlar elde edebilirsiniz. Bu işlemler sayesinde analizlerinizin doğruluğu artar.
Veri Birleştirme ve Gruplama: Pandas kütüphanesi, farklı veri kümelerini birleştirebilir ve gruplayabilir. Bu, verileri daha kolay ve anlaşılır bir şekilde görselleştirmenize yardımcı olur. Ayrıca, verilerinizi daha iyi anlamak için farklı gruplarla karşılaştırma yapmanızı sağlar.
Veri Analizi: Pandas, veri analizi için birçok istatistiksel fonksiyon ve yöntem sağlar. Bu yöntemler, verilerinizi daha ayrıntılı bir şekilde analiz etmenize yardımcı olur ve sonuçların daha doğru olmasını sağlar.
Veri Okuma ve Yazma
Pandas kütüphanesi, özellikle veri analitiği ve veri manipülasyonu alanında oldukça kullanışlı bir araçtır. Veri okuma ve yazma işlemleri de yine bu kütüphane üzerinde kolaylıkla yapılabilmektedir. Pandas kütüphanesi, birçok farklı veri formatını okuyabilir ve yazabilir. Örneğin, CSV, Excel, SQL veritabanları, JSON, HTML ve hatta Clipboard gibi farklı veri formatlarına kolaylıkla erişim sağlanabilir.
Pandas kütüphanesi üzerinden veri okuma işlemi yapmak oldukça basittir. read_csv(), read_excel() ve read_sql_table() gibi hazır fonksiyonlar kullanılarak farklı veritabanlarından veya uzantılardan veri okunabilir. Daha detaylı bir okuma içinse read_fwf(), read_table(), read_json() fonksiyonları kullanılabilir. Bunun yanında farklı veritabanlarına veri yazmak için de to_csv(), to_excel() gibi fonksiyonlar kullanılarak veriler dosyalara yazdırılabilir.
Örneğin, bir CSV dosyasından veri okuma işlemi yapmak için aşağıdaki kod bloğu kullanılabilir:
import pandas as pd # Veri okuma işlemi veri = pd.read_csv('veriler.csv') |
Yukarıdaki örnekte, read_csv() fonksiyonu kullanarak "veriler.csv" adlı dosyadan veriler okunmaktadır. Aynı şekilde Excel dosyaları için de read_excel() fonksiyonu kullanılabilir. Bu sayede farklı veritabanlarından veya uzantılardan veri okuma işlemi oldukça kolaylaşmaktadır.
Veri Temizleme
Pandas kütüphanesi, veri temizleme işlemleri için birçok fonksiyon ve yöntem sunar. Boş değerleri, tekrar eden değerleri ve aykırı değerleri temizlemek, veri analizinde oldukça önemlidir.
Boş değerler, veri setinde eksik veya yokluğu ifade eden değerlerdir. Pandas kütüphanesi, veri setindeki boş değerleri tespit etmek ve bunları silebilmek için dropna() yöntemini kullanır. Bu yöntem, belirtilen eksik değerleri içeren tüm satırları kaldırarak veri setindeki boş değerleri siler.
Örnek Veri Seti | Boş Değerleri Silme |
---|---|
1 | 1 |
2 | 2 |
NaN | 4 |
4 | 5 |
NaN | 6 |
Veri setindeki tekrar eden değerler, aynı değere sahip birden fazla gözlemi ifade eder. Pandas kütüphanesi, veri setindeki tekrar eden değerleri tespit etmek ve bunları silebilmek için drop_duplicates() yöntemini kullanır. Bu yöntem, belirtilen sütunlarda aynı değere sahip olan tüm satırları kaldırarak veri setindeki tekrar eden değerleri siler.
Örnek Veri Seti | Tekrar Eden Değerleri Silme (Sütun A) |
---|---|
1 | 1 |
2 | 2 |
2 | 3 |
4 | 4 |
4 | 5 |
Aykırı değerler, diğer verilerden belirgin şekilde farklı olan ve veri setinde istenmeyen değerlerdir. Pandas kütüphanesi, veri setindeki aykırı değerleri tespit etmek ve bunları silmek için aykırı değer analizi yöntemlerini kullanır. Bunlar arasında z-score yöntemi, box plot yöntemi ve grublu frekans analizi yöntemi bulunur. Bu yöntemler, belirli bir eşik değerinden yüksek veya düşük olan tüm gözlemleri belirleyerek aykırı değerleri tespit eder.
Veri temizleme işlemleri, veri analizi için büyük önem taşır. Bu işlemleri doğru bir şekilde gerçekleştirmek, veri setindeki hataları ve yanlış sonuçları önlemeye yardımcı olur.
Veri Birleştirme ve Gruplama
Veri birleştirme ve gruplama, verileri anlamak için birçok farklı kaynaktan verileri birleştirmemizi ve gruplamamızı sağlar. Pandas kütüphanesi, farklı veri kümelerini birleştirme ve gruplama için birçok fonksiyon ve yöntem sağlar.
Pandas kütüphanesi, merge() ve join() fonksiyonlarını kullanarak farklı veritabanlarını birleştirebilir. Bu fonksiyonlar, belirli bir sütuna göre verileri birleştirerek veritabanlarını birleştirir. Gruplama işlemi ise groupby() fonksiyonu ile yapılır. Bu fonksiyon, belirli bir sütuna göre verileri gruplarına ayırır ve her grup için istatistiksel hesaplamalar yapabilir. Gruplama ile verilerin daha anlaşılır hale geldiği ve daha kolay analiz edilebildiği görülmüştür.
Aşağıdaki örnek tablo, merge() fonksiyonunun kullanımını göstermektedir:
id | name | age | city |
---|---|---|---|
1 | Ahmet | 25 | İstanbul |
2 | Ayşe | 30 | Ankara |
3 | Mehmet | 35 | İzmir |
Yukarıdaki veritabanı ile aşağıdaki veritabanını merge() fonksiyonu kullanarak birleştirebiliriz:
id | salary |
---|---|
1 | 5000 |
2 | 7000 |
3 | 6000 |
merge() fonksiyonu kullanılarak birleştirilen veritabanı aşağıdaki gibi olacaktır:
id | name | age | city | salary |
---|---|---|---|---|
1 | Ahmet | 25 | İstanbul | 5000 |
2 | Ayşe | 30 | Ankara | 7000 |
3 | Mehmet | 35 | İzmir | 6000 |
Pandas kütüphanesi ayrıca gruplama yapmak için groupby() fonksiyonunu kullanabiliriz. Bu fonksiyon, verileri belirli bir sütuna göre gruplayarak gruplara bölmemizi sağlar. Daha sonra her grup için istatistiksel hesaplamalar yapabiliriz.Örneğin, bir sütuna göre gruplama yaparak her sütun için ortalama, maksimum ve minimum hesaplamalarını yapabiliriz.
Sonuç olarak, Pandas kütüphanesi, farklı verileri birleştirmek ve gruplamak için kullanışlı bir araçtır. Bu fonksiyonlar sayesinde veriler daha anlaşılır hale gelir ve daha kolay analiz edilir. Bununla birlikte, fonksiyonların seçimi ve kullanımı önemlidir ve doğru bir şekilde kullanılmadığı takdirde yanlış sonuçlara yol açabilir.
Veri Analizi
Pandas kütüphanesi, veri analizi işlemleri için birçok istatistiksel fonksiyon ve yöntem sağlamaktadır. Bu fonksiyonlar, veri seti içindeki özellikleri tanımlamak, özetlemek ve analiz etmek için kullanılır.
Bir veri setini analiz etmek için, pandas kütüphanesi ile çeşitli istatistiksel fonksiyonlar kullanılabilir. İlk olarak, describe() fonksiyonu kullanılarak veri seti hakkında özet istatistikler alınabilir. Bu fonksiyon, sayısal verilerin ortalaması, standart sapması, minimum ve maksimum değerleri, medyanını ve çeyrekler arası değerleri gösterir.
Fonksiyon | Açıklama |
---|---|
mean() | Ortalama değeri hesaplar |
median() | Medyan değeri hesaplar |
std() | Standart sapma değerini hesaplar |
min() | Minimum değeri hesaplar |
max() | Maksimum değeri hesaplar |
Veri seti içindeki verilerin dağılımını ve frekansını görselleştirmek için ise pandas kütüphanesi ile histogram ve grafikler oluşturulabilir. Bu görseller, veri seti içindeki özelliklerin dağılımını ve yoğunluğunu daha net bir şekilde gösterir.
- hist(): Bir veri setinin histogramını oluşturur.
- plot(): Veri setindeki verilerin grafik üzerinde gösterilmesini sağlar.
- boxplot(): Veri setinin boxplot grafiğini oluşturur.
Pandas kütüphanesi ayrıca, bir veri seti içindeki özellikler arasındaki ilişkiyi de analiz edebilir. Corr() fonksiyonu kullanılarak, veri setindeki değişkenler arasındaki korelasyon hesaplanabilir. Bu fonksiyon, Pearson korelasyon katsayısını hesaplar.
Özetle, pandas kütüphanesi, veri analizi için birçok fonksiyon ve yöntem sunar. İstatistiksel fonksiyonlar, veri seti içindeki özellikleri tanımlamak ve analiz etmek için kullanılırken, grafikler ve korelasyon analizi gibi yöntemler ise veri setindeki ilişkileri daha geniş bir perspektifte incelemek için kullanılabilir.