Veri Bilimi-3 Veri Bilimi Aşamaları ve Regresyon

Veri billiminin iş dünyasındaki modellemesi olan CRISP-DM’i önceki yazıda konuşmuştuk.

Bu yazıda değerlendirme ve aktifleştirme süreci ve regresyon analizini ele alacağız.

5-Değerlendirme (Evalution)

Yapılan işin ne olduğu fark etmeksizin kullanılan verilerin karşılaştırılması, performans değerlendirilmesi yapılması gerekmektedir.

Modeli bir önceki yazımızda kurduk. Bu modeli test etmemiz gerekmektedir. Bulduğumuz tahmini değerle gerçek değer arasındaki farkları ortaya çıkarttığımızda ise hatalar toplamına ulaşacağız. Bizim amacımız; hata kareler toplamı minimum yapmaktır.

Ayrıca bu süreçte derinlemesine analiz yapılmalıdır. Bundan dolayı tüm veri araçlarından yararlanmanız gerekmektedir. Burada farklı farklı müşterileri sisteme koyarak sistemi çalıştırmaya çalışmanız olası hataların önüne geçmenize engel olacaktır.

Öngörüleri tamamlayıp değerlendirmenin son aşaması olan hikaye yaratma aşamasına geçebilirsiniz. Burada nitel ve nicel bilgileri birleştirerek hikayenizi oluşturabilirsiniz.

6-Aktifleştirilmesi (Deployment)

Kullanıma koyma aşamasında kullanıcılara bu sistemi sunarak; müşterilerin kimseye ihtiyacı olmadan, diğer araba fiyatlarını araştırmasına gerek duymadan aracın fiyatı belirlenebilir.

Ayriyeten bu aşamada bulgularınızı görselleştirip sisteminizi aktifleştirebilirsiniz. Daha sonra bu sistemin sonuçlarının ne işimize yaracağını, nasıl kullanılacağını, kimler için yararlı olacağının cevaplarıyla beraber karşınızda bulunan kişilere anlatmanız gerekmektedir. Bu sayede sisteminizi tanıtıp kullanılabilirliğini arttırabilirsiniz.

REGRESYON ANALİZİ

Regresyon analizi, geçmiş verilere dayanarak bir sonuç elde etmektir. Örneğin bir fabrikada önceki yılların üretim miktarına bakarak bu yılki talep tahminini çıkartabilirsiniz. Regresyon analizinin amacı; geleceğe dönük tahminler yaparken bize kolaylık sağlamasıdır.

Regresyon analizi, bir bağımlı değişkenin değerine dayanarak en az bir bağımsız değişkeni tahmin etmektir.

Bağımlı değişken, tahmin etmek ya da açıklamak istediğimiz değişken olarak tanımlanır. Bağımsız değişken, bağımlı değişkeni tahmin etmek ve açıklamak için kullanılan değişkendir.

Tahmin değişkeni olarak bir değişken kullanılırsa doğrusal regresyon; tahmin değişkenleri olarak iki veya daha fazla değişken
kullanılırsa çoklu regresyon analizinde söz edilir.

Doğrusal regresyon analizi formülü: Y = a + bX + u

Çoklu regresyon analizi formülü: Y = a + b1X1 + b2X2 + b3X3 + … + btXt + u

Y = tahmin etmeye çalıştığınız değişken (bağımlı değişken).
X = Y’yi tahmin etmek için kullandığınız değişken (bağımsız değişken).
a = kesişme noktası.
b = eğim katsayısı
u = rassal hata bileşeni

Örnek:

Bir buzdolabı firması 2020 yılı buzdolabı satışlarını merak etmektedir. Bundan dolayı regresyon analizi yapmak istemektedir.

Regresyon analizi yapabilmek için bazı verilere ihtiyacımız var. Bunlar Xi² , Yi²  ve Xi*Yi bunları bulduktan sonra regresyon denklemimizi bulmaya geçebiliriz.

Xort=Xtop/n=15/5=3

Yort=Ytop/n=10/5=2

b=(∑XiYi-(n*Xort*Yort))/(∑Xi² -n*Xort² )

b=(37-5*3*2)/(55 -5*3² )=0,7

a=Yort-b*Xort=2-(0.7*3)=0,1

Yitahmini=-0,1+0,7Xi

Y6tahmini=-0,1+(0,7*6)=4,1(2020 yılı tahmini)

Regresyon ile korelasyon arasındaki farka bakacak olursak; iki ya da daha çok değişken arasında ilişki var mı yok mu, ilişki varsa yönünü ve o ilişkinin gücünü korelasyon analizi inceler.
Değişkenlerden birisi belirli bir birim değişirse diğerinin ne kadarlık değişim gösterdiğini regresyon analizi inceler.

Bir sonraki yazıda veri bilimleriyle alakalı mesleklerden bahsedeceğim.

Kaynak: piyasarehberi.org

bigskyassociates.com

Bir Cevap Yazın