Apa itu Regresi Linier Berganda dalam Pembelajaran Mesin?
TREND TEKNOLOGI – Regresi linier adalah model yang memprediksi nilai satu variabel berdasarkan kepentingan variabel lain. Ini adalah salah satu model yang paling populer dan banyak digunakan dalam pembelajaran mesin , dan ini juga merupakan salah satu hal pertama yang harus Anda pelajari saat Anda menjelajahi pembelajaran mesin.
Regresi linier sangat populer karena sangat sederhana: yang dilakukannya hanyalah mencoba memprediksi nilai berdasarkan data masa lalu, yang membuatnya mudah untuk mulai digunakan dan dipahami. Kesederhanaannya berarti juga mudah diimplementasikan, yang menjadikannya titik awal yang bagus jika Anda baru mengenal pembelajaran mesin.
Ada dua jenis algoritma regresi linier –
- Sederhana – berurusan dengan dua fitur.
- Ganda – menangani lebih dari dua fitur.
Dalam panduan ini, mari kita pahami regresi linier berganda secara mendalam.
Apa itu Regresi Linier Berganda (MLR)?
Dalam pembelajaran mesin dan analisis data, regresi linier berganda (MLR) adalah teknik statistik yang digunakan untuk memprediksi hubungan antara satu variabel dependen dan dua atau lebih variabel independen. Dengan menambahkan lebih banyak prediktor ke model regresi linier sederhana, teknik ini membantu untuk lebih memahami bagaimana prediktor memengaruhi variabel hasil secara keseluruhan. Dengan menggunakan persamaan yang paling sesuai dengan data yang diamati, tujuan utama regresi linier berganda (MLR) adalah untuk memperkirakan nilai variabel dependen berdasarkan nilai variabel independen. Metodologi ini digunakan secara luas di banyak domain, termasuk ekonomi, keuangan, biologi, dan ilmu sosial, untuk memfasilitasi peramalan, mendeteksi pola, dan memahami dampak beberapa elemen pada hasil tunggal.
Rumus dan Perhitungan Regresi Linier Berganda
Beberapa keadaan yang memengaruhi variabel dependen secara bersamaan dapat dikontrol melalui analisis regresi berganda. Analisis regresi adalah metode untuk menganalisis hubungan antara variabel independen dan variabel dependen.
Misalkan k menyatakan banyaknya variabel yang dilambangkan dengan x1, x2, x3, ……, xk.
Untuk metode ini, kita berasumsi bahwa kita mempunyai k variabel bebas x1, . . . , xk yang dapat kita tentukan, kemudian variabel-variabel tersebut secara probabilistik menentukan hasil Y.
Lebih jauh lagi, kita berasumsi bahwa Y bergantung secara linier pada faktor-faktor menurut
Y = β0 + β1×1 + β2×2 + · · · + βkxk + ε
- Variabel yi bergantung atau diprediksi
- Kemiringan y bergantung pada intersep y, yaitu ketika xi dan x2 keduanya nol, y akan menjadi β0.
- Koefisien regresi β1 dan β2 menunjukkan perubahan pada y sebagai akibat dari perubahan satu satuan pada xi1 dan xi2.
- βp mengacu pada koefisien kemiringan semua variabel independen
- Istilah ε menggambarkan kesalahan acak (residual) dalam model.
Di mana ε adalah kesalahan standar, ini sama seperti yang kita miliki untuk regresi linier sederhana, kecuali k tidak harus sama dengan 1.
Kita memiliki n observasi, n biasanya jauh lebih besar dari k.
Untuk pengamatan ke i, kami menetapkan variabel independen ke nilai xi1, xi2 . . . , xik dan mengukur nilai yi untuk variabel acak Yi.
Dengan demikian, model tersebut dapat dijelaskan melalui persamaan.
Yi = β0 + β1xi1 + β2xi2 + · · · + βkxik + i untuk i = 1, 2, . . . ,
Di mana kesalahan i adalah variabel standar independen, masing-masing dengan mean 0 dan varians tidak diketahui yang sama σ2.
Secara keseluruhan model regresi linier berganda memiliki k + 2 parameter yang tidak diketahui:
b0, b1, . . . , βk, dan σ 2.
Ketika k sama dengan 1, kita menemukan garis kuadrat terkecil y = βˆ 0 +βˆ 1x.
Itu adalah garis pada bidang R 2.
Sekarang, dengan k ≥ 1, kita akan memiliki hiperbidang kuadrat terkecil.
y = βˆ 0 + βˆ 1×1 + βˆ 2×2 + · · · + βˆ kxk di Rk+1.
Cara menemukan estimator βˆ 0, βˆ 1, . . ., dan βˆ k adalah sama.
Ambil turunan parsial dari kesalahan kuadrat.
Q = Xn i=1 (yi − (β0 + β1xi1 + β2xi2 + · · · + βkxik))2
Ketika sistem itu diselesaikan, kita telah mendapatkan nilai yang sesuai
yˆi = βˆ 0 + βˆ 1xi1 + βˆ 2xi2 + · · · + βˆ kxik untuk i = 1, . . . , n yang seharusnya mendekati nilai sebenarnya yi.