Pandas Kullanarak Veri Manipülasyonu ve Temizleme İşlemleri

Pandas Kullanarak Veri Manipülasyonu ve Temizleme İşlemleri

Pandalarla verilerinizi temizlemek ve manipüle etmek artık çok daha basit! Bu işlemleri hızla yapmak için Pandas kullanın Öğrenmek için bu yazıyı okuyun

Pandas Kullanarak Veri Manipülasyonu ve Temizleme İşlemleri

Pandas, veri manipülasyonu ve temizleme işlemleri için kullanılan bir Python kütüphanesidir. Veri analizi yapmak isteyenler için en önemli araçlardan birisidir. Bu kütüphane, veri analizi sırasında sıkça karşılaşılan sorunları çözmek için birçok fonksiyon sağlar ve verilerin daha net anlaşılabilmesine yardımcı olur.

Pandas'ın başlıca özellikleri arasında veri yükleme ve okuma, veri seçme ve indexleme, eksik verilerin işlenmesi ve veri manipülasyonu yer almaktadır. Veri yükleme ve okuma işlemleri, veriyi farklı kaynaklardan yüklemek ve okumak için farklı yöntemler sağlar. Veri seçme ve indexleme işlemleri, veri kümesindeki verileri seçmek ve indexlemek için birçok farklı seçenek sunar. Eksik verilerin işlenmesi, bazı durumlarda veri analizi yaparken çok önemlidir ve Pandas bu işlemi yapmak için birçok farklı method sunar. Son olarak, veri manipülasyonu işlemleri, verileri işlemenizi ve değiştirmenizi sağlar.

Genel olarak, Pandas, verileri temizlemenize ve analiz etmenize yardımcı olur. Bu kütüphane, özellikle büyük veri kümeleri için harika bir araçtır. Veri manipülasyonu ve temizleme işlemleri için kullanıcı dostu ve kolay bir arayüzü vardır. Ayrıca Pandas, veri görselleştirme araçları sağlayarak, verilerin daha kolay anlaşılır bir hale gelmesini sağlar. Kullanımı kolay olan Pandas kütüphanesi sayesinde, büyük verileri manipüle etmek artık çok daha kolay ve daha hızlı hale geldi.


Veri Yükleme ve Okuma

Pandas, veri analizi ve işleme için kullanılan bir Python kütüphanesidir ve farklı kaynaklardan veri yüklemek ve okumak için birçok farklı yöntem sunar. CSV, Excel, SQL veritabanları ve hatta HTML sayfaları Pandas ile okunabilir. Bu yöntemlerden bazıları şunlardır:

  • read_csv: CSV dosyasından veriyi okumak için kullanılır.
  • read_excel: Excel dosyasından veriyi okumak için kullanılır.
  • read_sql_query: SQL veritabanından veri okumak için kullanılır.
  • read_html: HTML tablolarından veri okumak için kullanılır.

Veri yükleme ve okuma işlemleri yaparken, Pandas size verinin hatalı ya da eksik olduğu durumlarda nasıl davranmanız gerektiği hakkında da seçenekler sunar. Bu seçenekler include headers, skiprows, skipfooter ve daha birçok seçenek elde etmenize ve analiz etmenize yardımcı olacaktır.


Veri Seçme ve Indexleme

Pandas, veri analizi sırasında veri kümesindeki verileri belirli kriterlere göre seçmek ve işlemek için birçok farklı yöntem sunar. Bunlardan biri de veri seçme ve indexlemedir. Veri kümesindeki verileri doğru şekilde seçmek ve indexlemek, analiz sırasında doğru sonuçlar elde etmeniz için oldukça önemlidir.

Label-based indexing, satır ve sütunları label veya etiketlerle seçmenizi sağlar. Bu seçenek ile iloc[] yerine loc[] kullanılır. loc[] ise verileri label-based indexleri kullanarak seçmek için kullanılır. iloc[] ise verileri integer location indexleri kullanarak seçmek için kullanılır ve bu seçenek ile loc[] yerine iloc[] kullanılır. Ayrıca Pandas, veri kümesindeki verileri seçmek için bir diğer seçenek de boolean indexing'dir. Boolean indexing, verilerin belirli bir koşula (True veya False) göre seçimi için kullanılır.


Label-based Indexing

Pandas veri manipülasyonu ve temizleme işlemleri için kullanılan en popüler Python kütüphanelerinden biridir. Bu kütüphane veri analizi işlemleri için gerekli olan temel işlemleri kolaylaştırarak işlemlerin daha hızlı ve verimli bir şekilde yapılmasını sağlar. Verilerin seçilmesi ve indexlenmesi de bu işlemlerden biridir ve label-based indexing seçeneği bunu kolaylaştıran bir yöntemdir.

Label-based indexing özellikle satır ve sütunları label veya etiketlerle seçme işlemini sağlar. Bu seçenekle birlikte loc[] kullanılırken iloc[] yerine loc[] kullanmanız gerekmektedir. Veri kümesinde yer alan label'lar belirtilerek satırlar ve sütunlar seçilebilir. Böylece veriler daha doğru bir şekilde seçilebilir. Aşağıda tablo şeklinde label-based indexing ile ilgili örnek bir kod parçası verilmiştir:

İsim Yaş Cinsiyet
Ahmet 35 Erkek
Ayşe 27 Kadın
Can 42 Erkek

Yukarıdaki tablo örneğinde, cinsiyete göre sütunlar seçilerek sadece erkeklerin yaşı alınabilir. Bu işlem için loc[] kullanılır ve şu şekilde bir kod yazılabilir:

  • df.loc[df['Cinsiyet'] == 'Erkek', 'Yaş']

Bu şekilde erkeklerin yaşlarının yer aldığı bir liste elde edilir. Ayrıca, bu yöntem kullanılarak birden fazla koşul da belirtilerek daha spesifik sonuçlar alınabilir.


iloc[]

Pandas, veri manipülasyonu ve temizleme işlemleri yapmak için sıkça kullanılan bir Python kütüphanesidir. Pandas, veri kümesindeki verileri seçmek ve indexlemek için birçok farklı seçenek sunar. Bunlardan biri de iloc[] yöntemidir.iloc[], veri kümesindeki verileri integer location indexleri kullanarak seçmek için kullanılır. Bu yöntem, veri kümesindeki satır ve sütunları seçmek için kullanılabilir.

Örnek olarak, aşağıdaki tablodan integer location indexleri kullanarak veri seçebilirsiniz:

Ad Soyad Yaş
0 Ali Kara 25
1 Ayşe Yılmaz 30
2 Mustafa Tekin 35

Veri kümesindeki tüm satırları seçmek için iloc[:, :], tüm sütunları seçmek için ise iloc[:, 1:] kullanılabilir. iloc[n] kullanılarak veri kümesinde n. index’e sahip satır seçilebilir. Aynı şekilde iloc[:, n] kullanarak n. index’e sahip sütun seçilebilir.

Bu seçenekler, veri kümesindeki büyük miktarda veriye sahip olan kullanıcılar için oldukça etkilidir.


loc[]

loc[], label-based indexing yöntemi kullanarak verileri seçmek için kullanılır. Bu seçenek, satır ve sütunları etiket veya label ile seçmenizi sağlar. Verileri etiketleri kullanarak seçtiğiniz için, bu yöntemdeki indexleme işlemi, diğer tüm indexing yöntemlerine göre daha kolay ve daha sezgiseldir.

loc[] yöntemi, etiket veya label isimleriyle satır ve sütunları seçmenizi sağlar. Bu yöntemde, her bir etiket veya label seçilir ve seçilen etiket verileri seçer. Satır ve sütunları seçmek için, köşeli parantez içine satır veya sütun etiketlerini yazmanız gerekir.

loc[] yöntemi, diğer indexing yöntemlerine göre daha yavaş çalışır, ancak verilerin daha anlaşılır ve okunaklı hale gelmesini sağlar. Bu yöntemi kullanarak, seçilen veriler daha doğru bir şekilde seçilebilir ve analiz edilebilir.

Aşağıda Pandas kullanarak loc[] yöntemiyle veri seçme örneği yer almaktadır:

İsim Yaş Cinsiyet
Ahmet 27 Erkek
Ayşe 34 Kadın
Ali 19 Erkek
Ahmet 29 Erkek
  • df.loc[0:2, 'İsim'] : İlk üç satırdaki İsim sütununu seçer.
  • df.loc[df['Yaş'] > 25] : Yaşı 25'ten büyük olan satırları seçer.
  • df.loc[(df['Cinsiyet'] == 'Erkek') & (df['Yaş'] > 20)] : Cinsiyeti erkek ve yaşları 20'den büyük olan satırları seçer.

Yukarıdaki örneklerdeki df, Pandas veri kümesinin adıdır. Burada loc[] yönteminin kullanımı, ilgili verilere erişmek için kullanılan birkaç farklı yol örneklendi.


Boolean Indexing

Veri analizi sırasında, bazen belirli bir veri grubunu veya filtrelemeyi seçmek isteyebilirsiniz. Pek çok durumda, bu koşulları belirlemek için boolean indexing yöntemi kullanılır. Pandas, verilerde bu koşullar için boolean işlemler yapmanızı sağlar.

Boolean indexing, veri kümesindeki verileri seçmek için kullanılan bir yöntemdir. Bu yöntem, belirli bir mantıksal ifadeyi kullanarak, bir dizi veride belirli bir koşula (örneğin 'x < 5') uyulup uyulmadığını kontrol eder. Bu işlem sonucunda, bir dizi doğru veya yanlış sonuçları elde ederek, filtrelemeyi gerçekleştirir.

Örneğin, aşağıdaki kod bloğu veri kümesindeki 'age' sütunundaki 30 yaşından büyük olanları seçer:

name age city
Alice 25 New York
Bob 30 Paris
Charlie 35 London
  • df[df['age'] > 30]

Bu kod, 'age' sütunundaki her satırı tek tek gezerek 30'dan büyük olanları belirler ve filtreler. Bu şekilde, bir veri kümesindeki verileri belirli koşullara göre basitçe filtreleyebilirsiniz.


Temizlik ve Eksik Verilerin İşlenmesi

Veri temizleme, birçok veri setinde kritik bir adımdır. Veri analizlerinde verinin doğru, güvenilir ve tutarlı olması gerekir ve bu nedenle temizlenmesi işlemi oldukça önemlidir. Pandas, veri temizleme işlemlerini yapmak için kullanabileceğiniz birçok farklı yöntem sunar.

Eksik veriler, bir veri kümesindeki en yaygın sorunlardan biridir. Pandas, eksik verilerle başa çıkmak için farklı yöntemler sunar. Bu yöntemler arasında boş olan değerleri silmek, ilk veya son değerleri doldurmak veya ortalama veya diğer istatistiksel değerleri kullanarak eksik verileri doldurmak yer alır. Bu metodlar, eksik verileri en iyi şekilde ele almanıza yardımcı olacak şekilde tasarlanmıştır.

Veri tipi dönüştürme, verinin doğru bir şekilde analiz edilmesine yardımcı olan bir başka önemli adımdır. Yanlış veri tipleri, veri analizini etkileyebilir ve yanıltıcı sonuçlara yol açabilir. Bu nedenle, eksik veya yanlış veri tiplerini düzeltmek için Pandas'ın sağladığı yöntemleri kullanabilirsiniz.

Ayrıca, veri kümesindeki aykırı değerleri tespit etmek ve ölçeklendirme yapmak da önemlidir. Veri kümesindeki aykırı değerler, diğer verilerin istatistiksel özelliklerini bozabilir. Bu nedenle, Pandas'ın sağladığı aykırı değer tespit yöntemlerini kullanarak verilerinizi doğru şekilde ölçeklendirebilirsiniz.


Veri Tipi Dönüştürme

Veri analizi yaparken, elde ettiğimiz verilerin türü oldukça önemlidir. Yazılım programları, doğru veri türlerini kullanarak verileri analiz edebilir ve yanıtlanacak sorulara daha doğru bir şekilde yanıt verir. Ancak bazen yanlış veri türleri oluşturulur, bu da veri analizinde hatalara neden olabilir. İşte bu durumda, Pandas veri tipi dönüştürme özelliği devreye girer.

Veri tipi dönüştürme, veri türünü belirtilen veri türüne dönüştürmek için kullanılır. Pandas'da, özellikle sayısal verileri dönüştürmek için sıkça kullanılır. Pandas, verilerin sayısal veri türlerine (float, int) dönüştürülmesi için birçok method sunar. Bu işlem, analize uygun veri türlerine sahip olmamıza olanak tanır ve hatalı veri türleri nedeniyle oluşabilecek analiz hatalarının önüne geçer.

Aşağıda Pandas'da kullanılabilen birkaç method örneği verilmiştir:

Method Açıklama
astype() Belirli bir sütunun veri türünü değiştirmek için kullanılır.
to_numeric() Belirli bir sütunu sayısal veri türüne dönüştürmek için kullanılır.
to_datetime() Bir sütunun datetime tipine dönüştürülmesi gerektiğinde kullanılır.

Bu methodlar gibi Pandas'da birçok method bulunur. Bu methodlar, veri kümesinin özelliklerine ve hedeflenen ürüne göre seçilerek kullanılabilir. Veri tipi dönüştürme ile hatalı veri türlerinin analizi önemli ölçüde basitleşir ve daha doğru sonuçlar elde edilir.


Eksik Verilerle Çalışmak

Eksik veriler, veri analizi yapılırken sıkça karşılaşılan bir sorundur. Pandas, bu sorunu çözmek için birçok yöntem sunar. Öncelikle, eksik verileri atlamak için dropna() fonksiyonu kullanılır. Bu fonksiyon, veri kümesindeki tüm satırları, belirtilen sütunlarda eksik veri içeriğine sahip olanları atlar.

Bunun yanı sıra, eksik verilerin yerine ortalama, medyan veya mod ile doldurulması gibi yöntemler de kullanılabilir. fillna() fonksiyonu, veri kümesindeki tüm eksik değerleri belirtilen bir değerle doldurur. Örneğin, veri kümesindeki eksik verileri medyan değeri ile doldurmak için fillna(df.median()) kullanılabilir.

Ayrıca, eksik verilerin interpolasyon yöntemiyle doldurulması da mümkündür. Bu işlem, eksik veri içermeyen aralıklar arasında bir doğru çizerek eksik verilerin tahmin edilmesi anlamına gelir. Pandas, bu yöntem için interpolate() fonksiyonunu kullanır.

Sonuç olarak, eksik verilerle çalışmak veri analizi sürecinde karşılaşılan önemli bir sorundur. Pandas, bu sorunu çözmek için farklı teknikler sunar. Eksik verilerin atlanması veya doldurulması gibi farklı yaklaşımlar, analiz sonuçlarının doğruluğunu artırabilir ve eksik verilerin analiz sürecindeki etkisini minimize edebilir.


Veri Manipülasyonu

Veri manipülasyonu, verilerin işlenmesi ve değiştirilmesi için kullanılan bir dizi işlemdir. Pandas, bu işlemleri gerçekleştirmenize olanak tanıyan birçok farklı yöntem sunar.

Veri manipülasyonu sırasında sık sık kullanılan işlemler şunlardır:

  • Filtreleme: Belirli koşullara göre verileri filtrelemek için kullanılır.
  • Sıralama: Belirli bir sütuna göre verileri sıralamak için kullanılır.
  • Birleştirme: Birden fazla veri kümesini birleştirerek yeni bir veri kümesi oluşturmak için kullanılır.

Pandas, bu işlemleri gerçekleştirmenize olanak tanıyan birçok yönteme sahiptir. Örneğin, concat() metodu, sütunları birleştirerek verileri bir araya getirir ve merge() metodu, farklı sütun ve satırları birleştirerek yeni bir veri kümesi oluşturur.

Ayrıca, verileri işlemek ve değiştirmek için diğer sıklıkla kullanılan yöntemler şunlardır:

  • Gruplama: Verileri belirli bir sütuna veya label değerine göre gruplamak için kullanılır.
  • Dönüştürme: Verilerin belirli bir şekle dönüştürülmesi için kullanılır.
  • Pivot: Verileri istenilen bir şekilde dizmek için kullanılır.

Bu yöntemler, veri manipülasyonunda son derece önemlidir ve veri analizlerinin daha kolay ve hızlı bir şekilde gerçekleştirilmesine olanak tanır.


Filtering Data

Veri kümesindeki verileri belirli koşullara göre filtrelemek, veri analizi yaparken sık sık kullanılan bir işlemdir. Bu işlem için Pandas, farklı seçenekler sunar. Örneğin, DataFrame.query() yöntemi, belirli bir sorgu ifadesine göre verileri filtrelemek için kullanılır.

Veri kümesinde verileri filtrelemek için kullanabileceğiniz diğer bir seçenek de boolean indexing'dir. Bu yöntem, veri kümesindeki verileri bir koşula göre filtrelemenizi sağlar. Örneğin, df[df['Sütun_A'] > 0] komutu, 'Sütun_A' adlı sütundaki verileri filtreleyerek yalnızca pozitif olanları döndürür.

Ayrıca, DataFrame.isin() yöntemi, veri kümesindeki bir sütundaki belirli değerleri filtrelemek için kullanılır. Bu yöntem, belirtilen bir liste veya dizi içindeki değerlere sahip tüm satırları döndürür.

Verileri filtreleme işlemi, veri analizi yaparken çok önemlidir. Bu işlem, uygun verilerin seçilmesine ve verilerin doğru şekilde yorumlanmasına yardımcı olur.


Sorting Data

Veri manipülasyonunda kullanılan en önemli işlemlerden biri, belirli bir sütuna göre verilerin sıralanmasıdır. Pandas'ın sort_values() methodu, belirli bir sütuna göre verilerin sıralanmasını sağlar. Bu method varsayılan olarak verileri küçükten büyüğe doğru sıralar ancak büyükten küçüğe doğru sıralama yapmak için ascending parametresi false olarak ayarlanabilir.

Burada dikkat edilmesi gereken bir nokta, belirli bir sütuna göre sıralama yaparken, sütunun veri tipine göre doğru sıralama yapılması gerektiğidir. Örneğin, sayıları içeren bir sütunu sıralarken, sayıların türü integer ya da float olduğuna göre doğru bir sıralama yapılmalıdır.

Aşağıdaki örnek, bir Pandas veri çerçevesindeki verileri 'Name' sütununa göre küçükten büyüğe doğru sıralar:

Name Age
Alice 25
Bob 30
Charlie 20

Bu veri çerçevesinin 'Name' sütununa göre sıralanmış hali şu şekildedir:

Name Age
Alice 25
Bob 30
Charlie 20

Büyükten küçüğe doğru sıralama yapmak için ascending parametresi false olarak ayarlanabilir:

Name Age
Charlie 20
Bob 30
Alice 25

Bu örnek, belirli bir sütuna göre sıralamanın nasıl yapılacağını gösterir. Pandas'ın sort_values() methodu, verilerin sıralanması için kullanışlı bir seçenektir.


Merging Data

Merging Data, birden fazla veri kümesini birleştirerek yeni bir veri kümesi oluşturan bir işlemdir ve veri manipülasyonunun en önemli ayağıdır. Örneğin, farklı kaynaklardan elde edilen verilerin birleştirilmesi gerektiği durumlarda kullanılır. Pandas, bu işlemi yapmak için birkaç yöntem sunar. Bunlar;

  • concat()
  • merge()
  • join()

concat() fonksiyonu, verileri sütun bazında birleştirir. Veri kümeleri birbirine eşleştirilir ve veriler birbirinin altına eklenir. merge() fonksiyonu, verileri sütunlara göre birleştirir. Veriler, belirtilen sütunlarda eşleştirilir ve tek bir veri kümesi oluşturulur. join() fonksiyonu ise, iki veri kümesi arasındaki birleşim işlemi yapar. İki veri kümesi birbirine eşleştirilir ve birleştirme işlemi gerçekleştirilir.

Merging Data, veri analizi yaparken çok önemlidir çünkü bu işlem verilere yeni boyutlar eklemenizi sağlar. Ayrıca, verilerin tamamını veya bir kısmını baz alarak farklı yönergelerle işleme koymak için de kullanılabilir. Bu sayede daha stratejik bir veri çözümlemesi yapılabilir. Yalnızca birleştirme işlemi yapmakla kalmayıp, elde edilen sonuçları doğru bir şekilde yorumlama becerisi de oldukça önemlidir.


Veri Görselleştirme

Pandas, veri analizi işlemlerinde olduğu gibi, veri görselleştirme araçları da sunar. Veri görselleştirme, verileri daha anlaşılır ve erişilebilir bir hale getirir. Pandas, bu işlevi yerine getirmek için bir çeşitlilik sağlar ve kullanıcıların veri setlerini farklı şekillerde sunmalarına olanak tanır.

Birçok veri görselleştirme aracı vardır, ancak en yaygın kullanılanları line plot ve histogramdır. Line plot, belirli bir veri serisinin zamana göre değişimini gösteren bir grafiğin çizdirir. Öte yandan, histogram, veri kümesindeki verilerin frekansını ve değişkenliğini gösteren bir grafik tipidir.

Pandas, ayrıca, farklı veri görselleştirme araçlarının birleştirilmesine de olanak tanır. Bu, birden fazla grafiğin tek bir görselleştirme halinde birleştirilmesine olanak sağlar. Bu ve diğer benzeri işlevler, veri görselleştirme araçlarını kullanarak verilerin farklı şekillerde analiz edilmesine izin verir.


Line Plot

Line plot, belirli bir veri serisinin zamana göre nasıl değiştiğini gösteren bir grafiği çizdirir. Veri setindeki sayısal değerler, x-ekseninde zamana, y-ekseninde değerlere karşılık gelir. Bu tür grafiğin amacı, verilerin belirli bir süre boyunca nasıl değiştiğini açıkça göstererek, eğilimler, değişimler ve aykırı değerleri ortaya çıkarmaktır.

Bir Line plot oluşturmak için, öncelikle DataFrame'deki verilerin x ve y eksenindeki konumlarını belirlemek gerekir. Pandas'ta, veriler slicing veya boolean indexing kullanılarak seçilebilir ve ardından plot() fonksiyonu kullanılarak grafiğe dönüştürülür. Aşağıdaki örnek, bir Line plot oluşturmak için kullanılabilecek basit bir kod göstermektedir:

Örnek Kod
import pandas as pd
import matplotlib.pyplot as plt
data = {'tarih': [1, 2, 3, 4, 5], 'satislar': [10, 30, 20, 40, 50]}
df = pd.DataFrame(data)
df.plot(x='tarih', y='satislar')
plt.show()

Bu örnek, tarihe bağlı olarak satışların nasıl değiştiğini göstermektedir. İki eksen arasındaki ilişki açıkça gösterilir ve eğer gerekiyorsa, çizgiler, renkler ve etiketler ekleyebilirsiniz. Bu sayede, veri analizi yaparken, değişimleri takip etmek ve eğilimleri belirlemek için Line plot kullanılabilir.

Veri Görselleştirme

Pandas, veri görselleştirme araçları sunar ve çeşitli grafiğin oluşturulmasına olanak tanır. Verilerin anlaşılması ve yorumlanması için grafiğin önemi oldukça büyüktür. Pandas kütüphanesi, çizgi grafikler, pasta grafikler, bar grafikler, dağılım grafikleri, histogramlar ve kutu grafikler dahil olmak üzere çeşitli grafik türlerini destekler.

Line plot, belirli bir veri serisinin zamana göre değişimini gösteren bir grafiğin çizdirir. Veri setinin zamana göre değişimini izlemek istediğimizde kullanışlıdır. Örneğin, belirli bir dönemde web sitesindeki ziyaretçi sayısının artış veya azalışını görmek için kullanılabilir.

Histogram, veri kümesindeki verilerin frekansını ve değişkenliğini gösteren bir grafik tipidir. Histogramlar, verinin dağılımını ve merkezi eğilimini görselleştirmeye yardımcı olur. Örneğin, bir mağazanın satışlarına ait frekans dağılımını incelemek ve en popüler ürünlerin neler olduğunu görmek için kullanılabilir.

Pandas, bu grafiklerin yanı sıra scatter plot ve pie charts dahil olmak üzere birçok farklı grafik tipi de sağlar. Veri setinin özelliklerine göre en uygun görselleştirme yöntemini seçmek, verilerin daha anlaşılır olmasını sağlar.


Histogram

Histogram, veri kümesindeki verilerin frekansını ve dağılımını grafiksel olarak gösteren bir yöntemdir. Histogramlar, bir aralıktaki verilerin sayısını göstermek için çubuklu bir grafik yöntemi kullanır. Bu yöntem, belirli bir aralıktaki verilerin nasıl dağıldığını görmeyi kolaylaştırır ve verilerin hangi aralıklarda yoğunlaştığını ve hangi değerlerde seyrek olduğunu belirleyebilirsiniz.

Histogramlar, veri dağılımını analiz etmek için sıklıkla kullanılır. Bir sınıfın frekansı, o sınıf aralığındaki veri sayısıdır. Histogram sınıf genişliği, sınıf aralığının boyutuna ve grafiğin çizildiği veri kümesine bağlı olarak değişebilir. Grafik düzeninde, x ekseni değişkenlerin değerleri için kategorileri ve y ekseni değişkenlerin frekansını temsil eder.

Veri kümesindeki verilerin yoğunluk dağılımının anlaşılması için histogramlar oldukça yararlıdır. Ayrıca, veri setinde olası aykırı değerlerin hızlı bir şekilde tespit edilmesine yardımcı olabilirler. Özellikle büyük veri kümesi analizinde, veri örnekleri arasında doğru bir şekilde görselleştirme yapmak ve verileri karşılaştırmak için önemlidir.