Veri Bilimi-2 Veri Bilimi Aşamaları

Veri bilimi süreci iş hayatında nasıl işliyor? Veri bilimini şirketimizde nasıl kullanabiliriz? Veri bilimini kullanan şirketler için örnekler neler?

Yukarıda soruların cevabını ele alacağız. Veri bilimi birçok farklı aşamadan oluşur. Her çalışmada olduğu gibi burada da verinin kaynaklardan toplanması ve derlenmesi, verilerin ayrıştırılması, modelin hazırlanması ve sonuçların değerlendirilmesi gibi aşamalardan oluşur.

Öncelikle yöntem olarak CRISP-DM’i kullanıyoruz. Peki CRISP-DM nedir?

CRISP-DM (Cross Industry Standard Process Model for Data Mining) veri madenciliği için sektörler arası standart süreç modeli anlamına gelmektedir. Anlamından da anlaşılacağı üzere bir veri madenciliği süreç modelidir.

CRISP-DM Adımları ve Akışı

1. İş Anlayışı(Business Understanding)

Bir problemi ele alıp projeyi başlatma aşamasıdır.

Örnek vererek ilerleyecek olursak; siz ya da bir arkadaşınız arabasını satmayı düşünüyor. Bunun için de 2. el satış yapan ilan sitelerine ihtiyacı var. Siteye girip oraya aracın fotoğraflarını yüklemeyi düşünüyorsunuz fakat bir probleminiz var aracı ne kadar fiyata koyacağınız hakkında bir bilginiz yok.

Problem Nedir?

Kişi aracını satmak istiyor fakat ne kadar fiyata satacağını bilemediği için bunun işlediği bir sistem yaratmak istiyorlar.

Problemi belirledik. Aracını satacak olan kişiler aracının gerçek satış fiyatına yakın para değeri vermesini istiyorlar.

Fiyatları nasıl karşılaştırmak doğru olur?

Aracın kaza durumu, km durumu, vites türü, markası, modeli ve fiyatını sisteme tanımlamalıyız.

Bu durum bizim makine öğrenmesi modeline ihtiyacımız olduğunu gösteriyor. Bir veri bilimci olarak deneyimli bir galerici gibi karar vermemiz mümkün değildir. Bunu yapabilmek için verileri sisteme işlememiz gerekmektedir.

Eğer biz bir anda deneyimli bir galerici olamıyorsak o zaman sistemin deneyimli bir galerici gibi davranmasını sağlayabiliriz.

2- Veriyi Anlamak(Data Understanding)

Bir makine öğrenmesi sistemi oluşturmamız gerekiyor. Veri kaynaklarından aldığımız veriyi incelememiz gerekiyor.

Veriyi anlamaya çalışmamız gerekiyor. Bunu da verilerin ortalaması, standart sapması gibi istatistiki verileri elde ederek başarabiliriz.

Excel formunda olan veriyi anlamamız gerekmektedir.

  • Aynı marka ve modellerde kaç manuel, yarı otomatik ve otomatik araçlar vardır? Bu araçların fiyatları nelerdir?
  • Hangi markadan kaç adet vardır?
  • Markaların fiyatları ortalama ne kadardır?
  • Yıl fiyata etki ediyor mu?

3-Veriyi Hazırlama(Data Preparation)

Hatalı verileri gidermek için bu aşamayı kullanmaktayız.

  • Birinci sorunumuz girilen verilerde girilmemiş değerler olabilir. (1. Adımda olduğu gibi) Kişi veriyi girmeyi unutmuş olabilir. Eksik değerler bulunabilir.
  • İkinci sorunumuz o araç markasının modelinde manuel vites türü bulunmamasına rağmen yine de manuel olarak girilmiş. (Bu veriye zaman serilerinde gürültülü veri de denilmektedir.)
  • Üçüncü sorunumuz bir veya birden fazla sıfırdan oluşan değerlerin var olması Kilometresinin 1.000.000.000 gibi bir değer olması o verinin aykırı bir değer olduğunun göstergesidir.
  • Dördüncü sorunumuz ise araç modeliyle araç markasının eşleşmemesi. Veriyi girmiş olan kişinin hatasından dolayı gerçekleşmiştir.

4-Modelleme(Modelling)

Veri içerisinde yer alan yapıların algoritmalara öğretilmesidir. (Doğrusal regresyon modeli)

Yi = β0 + β1X1+β2X2+…….+βpXp (Tahmini Satış Fiyatını Bulma Formülü)

Yi=100000-3000*HasarDurumu-0.3*Km+…+10000*VitesTürü

(Bu modeli kurmayı sonraki yazılarımda bulabilirsiniz.)

Değişkenlerin etki düzeylerini ve katsayılarını bulmuş olduk. Bunları veri setinden öğrendik. Hasar durumunun 1 olduğunu düşünürsek ilgili araç modeli ve türü için -3000 gibi bir durumumuz oluşacak.

Başka etkilere bakacak olursak; aracın kaza yapmış olması, kilometresinin yüksek olması gibi etkenler fiyatı düşürür.

Şöyle bir gerçek de mevcuttur. A marka bir aracın kilometresinin yüksek olmasının aracın satış fiyatına ne kadar etki edeceğini galerici de bilememektedir. Fakat yaratacağımız makine öğrenmesi denklemi bunu bize söyleyecektir.

Yılı eski, kilometresi düşük ise araç satış fiyatına daha farklı bir etkisi mevcuttur.

Aralarındaki ilişki modellendiğinde optimizasyon teknikleri kullanarak tahmini araç fiyatlarını bulabiliriz. (Doğrusal Regresyon)

Bir aracın özelliklerini bildiğimizde aracın satış fiyatını tahmin edebilmeyi belirledik.

Bir sonraki aşamalarımız olan değerlendirme aşaması, aktifleştirme aşaması ve doğrusal regresyonun açıklamasını sonraki yazımda bulabilirsiniz.

Kaynak: ybsansiklopedi.com

Bir Cevap Yazın