UJI REGRESI BINARY LOGISTIK (maksimal 5 variabel independen)
UJI REGRESI BINARY LOGISTIK (maksimal 5 variabel independen)
Regresi logistik merupakan suatu metode analisis data yang digunakan untuk mencari hubungan antara variabel respon (y) yang bersifat biner atau dikotomus dengan variabel prediktor (x) yang bersifat polikotomus (Hosmer dan Lemeshow, 1989). Outcome dari variabel respon y terdiri dari 2 kategori yaitu “sukses” dan “gagal” yang dinotasikan dengan y=1 (sukses) dan y=0 (gagal). Dalam keadaan demikian, variabel y mengikuti distribusi Bernoulli untuk setiap observasi tunggal. Fungsi Probabilitas untuk setiap observasi adalah diberikan sebagai berikut,
Dimana jika y = 0 maka f(y) = 1 – π dan jika y = 1 maka f(y) = π. Fungsi regresi logistiknya
dapat dituliskan sebagai berikut
Dengan z = β 0 + β1 x1 + ... + β p x p
Nilai z antara − ∞ dan + ∞ sehingga nilai f (z) terletak antara 0 dan 1 untuk setiap
nilai z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya
menggambarkan probabilitas atau risiko dari suatu objek. Model regresi logistiknya adalah
sebagai berikut
Dimana p = banyaknya variabel prediktor
Untuk mempermudah pendugaan parameter regresi maka model regresi logistik pada
persamaan (3) dapat diuraikan dengan menggunakan transformasi logit dari π (x) .
Sehingga diperoleh persamaan berikut
Model tersebut merupakan fungsi linier dari parameter-parameternya. Dalam model
regresi linier, diasumsikan bahwa amatan dari variabel respon diekspresikan sebagai y =
E(Y|x) + ε dimana
E (Y | x) = β0 + β1x1 +L + β p xp
merupakan rataan dari populasi dan ε merupakan komponen acak yang menunjukkan penyimpangan amatan dari rataannya dan ε diasumsikan mengikuti sebaran normal dengan rataan nol dan varians konstan.
Estimasi Parameter
Estimasi parameter dalam regresi logistik dilakukan dengan metode Maximum
Likelihood. Metode tersebut mengestimasi parameter β dengan cara memaksimumkan fungsi
likelihood dan mensyaratkan bahwa data harus mengikuti suatu distribusi tertentu. Pada
regresi logistik, setiap pengamatan mengikuti distribusi bernoulli sehingga dapat ditentukan
fungsi likelihoodnya.
Jika xi dan yi adalah pasangan variabel bebas dan terikat pada pengamatan ke-i dan
diasumsikan bahwa setiap pasangan pengamatan saling independen dengan pasangan
pengamatan lainnya, i = 1, 2, ..., n maka fungsi probabilitas untuk setiap pasangan adalah
sebagai berikut
Estimasi Parameter
Estimasi parameter dalam regresi logistik dilakukan dengan metode Maximum
Likelihood. Metode tersebut mengestimasi parameter β dengan cara memaksimumkan fungsi
likelihood dan mensyaratkan bahwa data harus mengikuti suatu distribusi tertentu. Pada
regresi logistik, setiap pengamatan mengikuti distribusi bernoulli sehingga dapat ditentukan
fungsi likelihoodnya.
Jika xi dan yi adalah pasangan variabel bebas dan terikat pada pengamatan ke-i dan
diasumsikan bahwa setiap pasangan pengamatan saling independen dengan pasangan
pengamatan lainnya, i = 1, 2, ..., n maka fungsi probabilitas untuk setiap pasangan adalah
sebagai berikut
dengan,
dimana ketika j = 0 maka nilai xij = xi0 = 1.
Setiap pasangan pengamatan diasumsikan independen sehingga fungsi likelihoodnya
merupakan gabungan dari fungsi distribusi masing-masing pasangan yaitu sebagai berikut
Fungsi likelihood tersebut lebih mudah dimaksimumkan dalam bentuk log l(β) dan
dinyatakan dengan L(β).
Nilai β maksimum didapatkan melalui turunan L(β) terhadap β dan hasilnya adalah sama
dengan nol.
Estimasi varians dan kovarians dikembangkan melalui teori MLE (Maximum
Likelihood Estimation) dari koefisien parameternya (Rao, 1973 dalam Hosmer dan
Lemeshow, 1989). Teori tersebut menyatakan bahwa estimasi varians kovarians didapatkan
melalui turunan kedua L(β).
Matriks varians kovarians berdasarkan estimasi parameter diperoleh melalui invers
matriks dan diberikan sebagai berikut
Diag [πˆ(x i )(1 − πˆ (x i ))] adalah merupakan matriks diagonal (n x n) dengan diagonal
utamanya adalah [πˆ (x i )(1 − πˆ(x i ))]. Penaksir SE(βˆ ) diberikan oleh akar kuadrat diagonal
utama. Untuk mendapatkan nilai taksiran β dari turunan pertama fungsi L(β) yang non linier
maka digunakan metode iterasi Newton Raphson. Persamaan yang digunakan adalah
dan H merupakan matriks Hessian. Elemen-elemennya adalah
sehingga
dan pada setiap iterasi berlaku, dari persamaan (10) diperoleh,
dengan m(t) = π(xi) (t). Langkah-langkah iterasi Newton Raphson diberikan sebagai berikut,
a. Menentukan nilai dugaan awal β (0) kemudian dengan menggunakan persamaan (10) maka didapatkan (0)π(x)i.
b. Dari (0)π(x)i pada langkah a. diperoleh matriks Hessian H (0) dan vektor q (0).
c. Proses selanjutnya untuk t > 0 digunakan persamaan (10) dan (11) hingga ()π(x)ti dan ()βt konvergen.
Pengujian Estimasi Parameter
Setelah parameter hasil estimasi diperoleh, maka kemudian dilakukan pengujian keberartian terhadap koefisien β secara univariat terhadap variabel respon yaitu dengan membandingkan parameter hasil maksimum likelihood, dugaan β dengan standard error parameter tersebut. Hipotesis pengujian parsial adalah sebagai berikut,
H0 : 0=iβ
H1 : 0≠iβ; i = 1, 2, ..., p
Statistik uji W tersebut, yang juga disebut sebagai Statistik uji Wald, mengikuti distribusi normal sehingga H0 ditolak jika 2/αZW> dan dapat diperoleh melalui persamaan berikut,
Statistik uji tersebut mengikuti distribusi Chi-Squred sehingga H0 ditolak jika ),(22αχvW> dengan v degrees of freedom banyaknya prediktor.
Setelah diperoleh variabel prediktor yang signifikan berpengaruh terhadap variabel respon pada pengujian univariat, langkah selanjutnya adalah menentukan variabel manakah hasil pengujian univariat yang signifikan mempengaruhi variabel respon secara bersama-sama. Pengujian ini dilakukan untuk memeriksa keberartian koefisien β secara serentak (multivariat) / overall terhadap variabel respon. Hipotesis yang digunakan diberikan sebagai berikut.
H0 : 0...21====iβββ
H1 : Paling tidak terdapat satu 0≠iβ; i = 1, 2, ..., p
dimana:
Statistik uji G adalah merupakan Likelihood Ratio Test dimana nilai G mengikuti distribusi Chi-Squred sehingga H0 ditolak jika ),(2αχvG>dengan v derajat bebas adalah banyaknya parameter dalam model tanpa 0β.
Intepretasi Koefisien Parameter
Intepretasi terhadap koefisien parameter ini dilakukan untuk menentukan kecenderungan/hubungan fungsional antara variabel prediktor dengan variabel respon serta menunjukkan pengaruh perubahan nilai pada variabel yang bersangkutan. Dalam hal ini digunakan besaran Odds ratio atau βe dan dinyatakan dengan ψ. Odds ratio diartikan sebagai kecenderungan variabel respon memiliki suatu nilai tertentu jika diberikan x=1 dan dibandingkan pada x=0. Keputusan tidak terdapat hubungan antara variabel prediktor dengan variabel respon diambil jika nilai Odds ratio (
ψ) = 1.
Jika nilai Odds ratio (ψ) < 1, maka antara variabel prediktor dan variabel respon terdapat hubungan negatif setiap kali perubahan nilai variabel bebas (x) dan jika Odds ratio (ψ) > 1 maka antara variabel prediktor dengan variabel respon terdapat hubungan positif setiap kali perubahan nilai variabel bebas (x).
dan pada setiap iterasi berlaku, dari persamaan (10) diperoleh,
dengan m(t) = π(xi) (t). Langkah-langkah iterasi Newton Raphson diberikan sebagai berikut,
a. Menentukan nilai dugaan awal β (0) kemudian dengan menggunakan persamaan (10) maka didapatkan (0)π(x)i.
b. Dari (0)π(x)i pada langkah a. diperoleh matriks Hessian H (0) dan vektor q (0).
c. Proses selanjutnya untuk t > 0 digunakan persamaan (10) dan (11) hingga ()π(x)ti dan ()βt konvergen.
Pengujian Estimasi Parameter
Setelah parameter hasil estimasi diperoleh, maka kemudian dilakukan pengujian keberartian terhadap koefisien β secara univariat terhadap variabel respon yaitu dengan membandingkan parameter hasil maksimum likelihood, dugaan β dengan standard error parameter tersebut. Hipotesis pengujian parsial adalah sebagai berikut,
H0 : 0=iβ
H1 : 0≠iβ; i = 1, 2, ..., p
Statistik uji W tersebut, yang juga disebut sebagai Statistik uji Wald, mengikuti distribusi normal sehingga H0 ditolak jika 2/αZW> dan dapat diperoleh melalui persamaan berikut,
Statistik uji tersebut mengikuti distribusi Chi-Squred sehingga H0 ditolak jika ),(22αχvW> dengan v degrees of freedom banyaknya prediktor.
Setelah diperoleh variabel prediktor yang signifikan berpengaruh terhadap variabel respon pada pengujian univariat, langkah selanjutnya adalah menentukan variabel manakah hasil pengujian univariat yang signifikan mempengaruhi variabel respon secara bersama-sama. Pengujian ini dilakukan untuk memeriksa keberartian koefisien β secara serentak (multivariat) / overall terhadap variabel respon. Hipotesis yang digunakan diberikan sebagai berikut.
H0 : 0...21====iβββ
H1 : Paling tidak terdapat satu 0≠iβ; i = 1, 2, ..., p
Statistik uji:
dimana:
Statistik uji G adalah merupakan Likelihood Ratio Test dimana nilai G mengikuti distribusi Chi-Squred sehingga H0 ditolak jika ),(2αχvG>dengan v derajat bebas adalah banyaknya parameter dalam model tanpa 0β.
Intepretasi Koefisien Parameter
Intepretasi terhadap koefisien parameter ini dilakukan untuk menentukan kecenderungan/hubungan fungsional antara variabel prediktor dengan variabel respon serta menunjukkan pengaruh perubahan nilai pada variabel yang bersangkutan. Dalam hal ini digunakan besaran Odds ratio atau βe dan dinyatakan dengan ψ. Odds ratio diartikan sebagai kecenderungan variabel respon memiliki suatu nilai tertentu jika diberikan x=1 dan dibandingkan pada x=0. Keputusan tidak terdapat hubungan antara variabel prediktor dengan variabel respon diambil jika nilai Odds ratio (
ψ) = 1.
Jika nilai Odds ratio (ψ) < 1, maka antara variabel prediktor dan variabel respon terdapat hubungan negatif setiap kali perubahan nilai variabel bebas (x) dan jika Odds ratio (ψ) > 1 maka antara variabel prediktor dengan variabel respon terdapat hubungan positif setiap kali perubahan nilai variabel bebas (x).