Tabi ki algoritmalarla! Algoritmalar bir süreci, eylemi makine dili olan kodlarla makineye sırasıyla anlatmaktan başka bir şey değildir.
Öğrenmeyi ilk önce insan etkisi olup olmamasına göre ayırabiliriz: denetimli (supervised) ve denetimsiz (unsupervised) olarak.
Denetimli öğrenmeye tahmin algoritmalarından lineer regresyon, sınıflandırma konularından da lojistik regresyon, karar ağacı, rassal orman dahil edilebilir. Kümeleme ve boyut azaltma denetimsiz öğrenmeye konularına dahildir.
Yarı denetimli ve pekiştirmeli öğrenme gibi makine öğrenmesi algoritmaları da vardır. Bunlara bu seri içinde sırasıyla değineceğim. Uzun bir yazı serisi olacak gibi duruyor.
Tahmin istatistiğe dayanan modeller ile yapılabilir. Aslında kullanılan veri tipine göre de modelin ismi değişebilir. Örneğin kategorik bir veride cinsiyete, meslek alanına, eğitim seviyesine göre tahmin olursa bunun adı sınıflandırma (classification) olur. Sayısal veride bir kişinin yaşı, maaşı, boyu, bir aracın fiyatı, dolar kuru için kullanılan model tahmindir (prediction).
Sonuçta tahminler sayısal değerlere bakılarak belirlenir. Bu değerlerin sıralanması zamana bağlı olursa buna zaman serisi analizi denir (time series analysis). Zamana bağlı olmayan, bir kişinin maaşını, x üründen kaç tane alacağını tahmin etme gibi durumlar da olabilir.
Tahmin kavram olarak daha genel bir anlam taşır. Öngörü (forecasting) ise geleceğin tahmini olacaktır. Zaman serilerinde, herhangi bir zamana kadar olan veri noktalarından değil de, daha verisi elimizde olmayan kısmına yönelik tahmin yapmak öngörüdür. Yani örneklem uzayının dışındaki durumların tahmini denilebilir. Örneğin bir aylık dolar verisinden yılı nasıl kapatacağımızı tahmin etmek gibi.
Daha önce Lineer Regresyon ile Deprem Parametresi Tahmini yazımda, yaşanmış depremlerin verilerini Kandilli Rasathanesi’nden indirip, var olan veriler arasında bir tahmin yapmıştım. Dolayısıyla bu model bir deprem büyüklüğü ya da zamanı öngörüsü taşımamaktaydı.
Ayrıca tahmin modelleri, geçmiş verilerden faydalanırken, aradaki eksik verilerin doldurulmasını da sağlayabilir. Geçmişteki bir veriyi tahmin edebilir, tahminimiz ile gerçek veri arasındaki hata payına bakabiliriz. Kısacası tahmin yaparken elimizdeki verilerle, örnek uzaydaki olayların olasılıkları ile ilgili işlem yapmakta özgürüz.
Regresyon (isim): İki veya daha çok değişken arasında (doğrusal) bir ilişki olup olmadığının bulunması ve bu (doğrusal) ilişkinin bir (doğrusal) denklemle nasıl ifade edildiğinin gösterilmesi. | TDK
Basit Doğrusal Regresyon, bir bağımsız değişkenle bir bağımlı değişken (tahmin edilen) arasındaki ilişkinin doğrusal olarak açıklanmasıdır. Eğer ilişkisi ölçülen değişkenler birden fazlaysa Çoklu Doğrusal Regresyon, değişkenlerin aralarındaki ilişki bir doğru değil de bir polinomsa Polinomal Regresyon denir.
İstatistiksel olarak bu doğrusal ilişki:
y = β0 + β1x+ e
- y: çıktı, bağımlı değişken, hedef değişken ( örn. tahmin edilen ev fiyatları)
- x: girdi, bağımsız değişken (örn. evlerin kaç m² olduğu, kat sayısı gibi özellikleri)
- β0: y doğrusunu kesen değer
- β1: regresyon doğrusunun eğimini belirler ve verilen x için katsayıdır.
- e: hata
Doğrusal Regresyon algoritmasında amaç en uygun doğruyu çizebilmektir. Model katsayıları β0 ve β1 kullanılarak var olan veri noktalarına en yakın doğru çizilmelidir. Bunun için hata yani tahmin edilen noktalar ise gerçek veri noktaları arasındaki mesafe farkı minimum olmalıdır. Katsayılar bulunduktan sonra doğrunun y eksenini kestiği nokta ve eğimi bulunur ve tek kalan istenen x değerini yazıp tahmin yapmaktır.
- siyah noktalar: asıl veri noktaları (x ve y)
- mavi doğru: en küçük kareler yöntemi ile hata mesafesinin minimum olduğu en uygun doğru
- kırmızı çizgiler: gözlenen (gerçek) veri ile en uygun doğru arasındaki mesafe -hatalar (bias)
- doğrunun eğimi β1 katsayısı ile bulunur
- x=0 olduğunda y doğrusunu kesen nokta ise β0 katsayısı ile bulunur.
Veri 2 boyutlu uzayda görselleştirilirken amaç noktalara en yakın geçen, en az hata ile doğruyu çizebilmek. Örneğin borsaya etki eden bir sürü parametre vardır. Yani bu noktaları etkileyen birçok sebep vardır. Biz bu karmaşık yapıyı basit bir doğru ile sembolize etmek istiyoruz (y=ax+b). Lineer Regresyonun çokça tercih edilmesinin nedeni bu kadar basit olmasıdır.
Korelasyon vs Regresyon
Korelasyonda tahmin yapmak gibi bir amaç yoktur; sadece değişkenler arasındaki ilişki istatistiksel olarak belirlenir. Korelasyon kaysayıları -1 ile 1 arasındadır. Değişkenler bağımlı / bağımsız diye ayrılmazlar ve aralarında doğrusal bir ilişki vardır.
Regresyonda amaç, bağımlı değişkeni bağımsız değişkenlerden faydalanarak tahmin edecek bir model oluşturmak. Bağımsız değişkendeki birim değişimin bağımlı değişken üzerindeki etkisi incelenir. Burada amaç hata ile tahmin mesafesini En Küçük Kareler Yöntemi ile minimum yapacak en uygun doğruyu bulmaktır.
Ve artık uygulamaya geçebiliriz.