Bootstrap

Menuru Shao dan Tu (1995) serta Davison dan Hinkley (1997) dalam inferensi statistik parametrik klasik, distribusi sampling dianggap sebagai suatu model dengan sifat-sifat probabilitas yang diketahui, seperti asumsi distribusi yang memerlukan formula analitis berdasarkan pada model untuk mengestimasi secara analitis parameter dalam distribusi samplingnya. Dalam prakteknya, distribusi sampling tidak selalu memenuhi distribusi normal dan kadang-kdang memerlukan penurunan formulasi analitis yang sulit dilakukan sehingga dimungkinkan akurasi estimatornya tidak valid.

Bootstrap memungkinkan seseorang untuk melakukan inferensi statistic tanpa membuat asumsi distribusi yang kuat dan tidak memerlukan formulasi analitis untuk distribusi sampling suatu estimator. Sebagai pengganti, bootstrap menggunakan distribusi empiris untuk mengestimasi distribusi sampling. Jadi jika penyelesaian analitik tidak mungkin dilakukan dimana anggapan (suatu distribusi, misalnya kenormalan data) tidak dipenuhi maka dengan menggunakan Boosttrap masih dapat dilakukan suatu inferensi.

Dasar pendekatan Bootstrap adalah dengan memperlakukan sampel sebagai populasi dan dengan menggunakan sampling Monte Carlo untuk membangkitkan dan mengkonstruksi estimator empiris dari distribusi sampling statistik. Distribusi sampling dapat dipandang sebagai harga-harga statistik yang dihitung dari sejumlah tak terhingga sampel random berukuran n dari suatu populasi yang diberikan. Sampling Monte Carlo mengambil konsep ini untuk membangun distribusi sampling suatu estimator dengan mengambil sejumlah besar sampel erukuran n secara random dari populasi dan menghitung statistik tersebut dari harga-harga distribusi sampling tersebut. Estimasi Monte Carlo yang sebenarnya memerlukan pengetahuan tentang seluruh populasi yang tidak mungkin selalu tersedia dalam prakteknya karena yang dipunyai dari hasil riset praktek adalah sampel dari populasi oleh karena itu dilakukan inferensi untuk Tetha dari distribusi samplingnya.

Software yang recomended untuk digunakan analisa dengan metode Bootstrap adalah S-Plus dan R.

Bengkeldata.Com siap membantu anda dalam melakukan olah data statistik dengan metode Bootstrap.

(Sopana (2003). Estimasi Interval Konfidensi Nonparametrik dengan Metode Bootstrap. Skripsi Jurusan Matematika FMIPA Universitas Sebelas Maret (UNS), Surakarta.)

Metode bootstrap adalah metode berbasis resampling data sampel dengan syarat pengembalian pada datanya dalam menyelesaikan statistik ukuran suatu sampel dengan harapan sampel tersebut mewakili data populai sebenarnya, biasanya ukuran resampling diambil secara ribuan kali agar dapat mewakili data populasinya. Metode ini bagus sekali untuk ukuran data sampel yang relatif kecil{ dalam bukunya Walpole data kecil yaitu n<30}.

Teknik bootstrap merupakan suatu metode resampling untuk memperkirakan distribusi probabilitas suatu statistik. Bootstrap diperkenalkan oleh Bradley Efron pada tahun 1979. Istilah bootstrap berasal dari ”pull oneself up by one’s bootstrap”, yang berarti berpijak diatas kaki sendiri, berusaha dengan sumber daya minimal. Dalam sudut pandang statistika, sumber daya minimal adalah data yang sedikit, data yang menyimpang dari asumsi tertentu, atau data yang tidak mempunyai asumsi apapun tentang distribusi populasinya. Teknik ini mampu menciptakan ukuran-ukuran dari ketakpastian dan bias, khususnya pada estimasi parameter dari variabel-variabel yang independen dan berdistribusi identik.

Dalam dunia Bootstrap, sebuah sampel diambil dari suatu populasi. Sampel ini dinamakan dengan Sampel Asli. Sampel Asli kemudian diperlukan sebagai populasi dan diaplikasikan prosedur Monte Carlo pada sampel tersebut. Hal ini dilakukan dengan mengambil sejumlah besar Sampel Ulang (Resample) berukuran n dari Sampel Asli secara random dengan pengembalian. Dengan cara Resampling seperti ini akan diperoleh sampel yang berukuran sama dengan Sampel Asli dan dengan pengembalian dimungkinan diperoleh Resample yang sama lebih dari sekali dan mungkin saja berbeda dengan Sampel Asli.

Metode Bootstrap tidak selalu memerlukan asumsi distribusi dan formulasi analitis yang rumit untuk mengestimasi parameter dari suatu populasi. Jika asumsi dari suatu distribusi tidak diketahui maka disebut kasus nonparametrik.

Software yang recomended untuk digunakan analisa dengan metode Bootstrap adalah S-Plus dan R.

Beberapa waktu yg lalu (2 minggu kemaren, klo ga salah) saya dapet tugas untuk mata kuliah simulasi statistika. Saat itu qta di kasih permasalahan untuk melakukan pengujian hipotesis untuk data yang berukuran kecil..

Nah, bwat melakukan suatu uji hipotesis, kita kan mesti tau dulu sebaran data yang mau kita uji itu normal atau ngga? Kalo datanya normal, baru kita bisa uji hipotesisnya.. Bwat nguji kenormalan ada beberapa cara, pake uji Anderson-Darling atau Kolmogorov-Smirnov, dll. Nah, klo datanya banyak, hasil pengujian kenormalannya akan sesuai dengan keadaan sebenernya.. yang jadi masalah adalah klo data yang kita punya sedikit. Hasil pengujiannya bisa aja salah… Mungkin aja data yang ada berasal dari populasi yang menyebar normal, tp pas di uji ternyata hasilnya ga normal. Atau bisa juga sebaliknya…

Nah, bwat ngatasin masalah ini, ada beberapa metode yang bisa di pake. Salah satu nya Bootstrap. Bootstap adalah penarikan contoh dari contoh, atau di kenal dengan istilah resampling. Nah, bootstrap ini sendiri ada 2 macem, bootstrap parametrik sama bootstrap non parametrik. yang saya pake kemaren bootstrap non parametrik. Salah satu perbedaan antara yg parametrik sm non parametrik adalah dalam hal pemenuhan asumsi. Klo di bootstrap non parametrik ga ada asumsi.. Selain itu, klo pake bootstrap parametrik kita udah tau sebaran awal data yg kita punya, klo di bootstrap non parametrik kita ga mesti tau sebaran datanya.

Jadi prosedur bootstrap itu begini… Misalkan kita punya contoh yang berukuran n (n ini kecil, klo di tugas yg kami dapet n=6). Dari sini kita ambil contoh acak berulang dengan pengembalian sebanyak d. Nilai d ini bisa lebih kecil, sama dengan, ato lebih besar dari n. Misal kita pake d=10, jadi kita akan punya d1-d10. Nah dari sepuluh nilai yang udah kita dapetin, kita cari rataannya, dapet deh satu data baru.. prosedur ini kita ulangi sebanyak B kali. dan B ini adalah jumlah contoh bootstrap.  Pengujian kenormalan ini kita lakukan terhadap B contoh bootstrap yang kita dapet…

Contohnya gini..

1. data yang kita punya : 5 ; 7 ; 4 ; 8 ; 9 ; 2

2. lakukan resampling sebanyak d kali (misal d=10) –> 5, 2, 4, 2, 7, 5, 7, 9, 9, 7 –> rataannya (xbar1) = 5.7

3. ulangi langkah ke dua sampai B kali (misal B=100), sehingga kita bakal punya 100 nilai rataan. xbar1=5.7, xbar2 = …, sampe xbar100=…

4. kita uji kenormalan dengan menggunakan statistik bootstrap td.. jd pake xbar1 – xbar100

5. klo udah liat hasilnya, normal atau ngga, klo normal baru bisa kita uji hipotesis, klo ga normal stop disini..

6. cari t hitung untuk n data yg kita punya.. xbar/(stdev x/(sqtr(n))

7. cari t-hitung untuk setiap contoh bootstrap. misalkan untuk contoh yg di poin 2, berarti t hitung nya : xbar1/(stdev x1/(sqtr(d)), lakukan untuk semua contoh bootstrap yang kita peroleh di poin 2. jadi kita akan punya 100 nilai t-hitung.

8. Bandingkan t hitung di poin 6 sama yg di poin 7. Lihat berapa banyak t-hitung di poin 7 yang lebih besar dari mutlak t-hitung di poin 6. dari sini bisa di cari nilai-p nya.. yaitu (jumlah (t-hitung poin 7>t-hitung poin 6)) / B

9. setelah dapet nilai p, bandingkan sama alpha untuk pengambilan keputusannya dari pengujian hipotesisnya..

Nah, itu prosedur bootstrap yang saya tau. mungkin pasti masih ada salahnya, karena saya juga lagi belajar, hehe… klo mw ada yg ngoreksi, nambahin, ngurangin, ato apapun silakan… biar makin akurat… klo mw dijadiin referensi jangan lupa dibandingin sama yg lain… ok….

Resampling Bootstrap

Misalkan dalam suatu penelitian diambil sampel acak berukuran n amatan, x=(x1, x2, …, xn) dan dari sampel ini dihitung estimator

t(x)                                                         (1)

dengan suatu metode tertentu. Jika statistik tersebut distribusinya sukar ditentukan maka dalam inferensi selanjutnya selain prosedur Jackknife, prosedur Bootstrap juga dapat digunakan untuk mengatasinya.

Pada prinsipnya prosedur metode Bootstrap adalah melakukan resampling terhadap sampel awal x ( berukuran n ) secara satu persatu dengan pengembalian. Dengan prosedur ini didapat sampel baru

x * = ( x1*, x2*, … , xn*) .                   (2)

Prosedur resampling tersebut diulang sampai sebanyak B kali. sehingga didapat sampel-sampel Bootstrap sebanyak B berikut

x *1 = ( x11*, x21*, … , xn1*)

x *2 = ( x12*, x22*, … , xn2*)

x *B = ( x1B*, x2B*, … , xnB*).              (3)

Selanjutnya dari tiap-tiap sampel Bootstrap tersebut dihitung estimatornya dengan metode yang sama untuk mendapatkan (1), maka diperoleh estimator-estimator Bootstrap

Estimasi Parameter Regresi pada Sampel Kecil
Ditulis Oleh: Suhermin Ari Pujiati, S.Si
Tuesday, 22 January 2008
Sering kita dihadapkan pada permasalahan, hanya mendapatkan jumlah sampel yang kecil dalam suatu pemodelan dan dikhawatirkan parameter yang diperoleh bias, underestimate atau overestimate.

Sebenarnya ada sebuah solusi atas permasalahan ini, yaitu Metode bootstrap. Pendekatan bootstrap dilakukan dengan proses resampling pada observasi dan residual dari model regresi :
– Apabila regresor adalah random , metode bootstrap yang dipakai adalah dengan melakukan resampling pada observasi dengan probabilitas setiap observasi akan terambil sebanyak 1/n untuk jumlah sampel (i) = 1,2,…, n dan untuk sejumlah variabel (j) = 1,2,…,k. Resampling dilakukan sebanyak B kali. Dimana jumlah B diisyaratkan cukup besar, hingga diperoleh estimasi parameter yang konvergen atau bahkan sampai sejumlah n pangkat n sampel. Dengan jumlah B yang cukup besar ini, diharapkan estimasi parameter regresi yang dihasilkan akan lebih kuat (robust).

– Apabila regresor adalah variabel yang fix, metode bootstrap yang dipakai adalah dengan melakukan resampling pada residual (hasil bentukan model OLS, pada sampel). Dari nilai residual ini selanjutnya diestimasikan parameter model regresi. Proses ini dilakukan berulang sampai sebanyak B kali.
Baik pada regresor yang fix maupun random, estimasi parameter regresi (beta), diperoleh dengan menjumlahkan beta pada setiap resampling dan membagi dengan nilan B. Jadi merupakan rata-rata dari taksiran beta di setiap proses resampling.

Apakah hanya bootstrap ?

Ada lagi metode resampling yang lain, yakni dengan pendekatan jacknife. Jacknife resampling lebih umum digunakan apabila variabel regressor adalah fix. Ada dua cara dalam proses jacknife resampling, yaitu :

– Estimasi parameter dengan OLS, namum menghilangkan satu per satu observasi, dilakukan berulang sampai (n-1) kali dan mencari taksiran parameter dari rata-rata parameter (beta) setiap kali resampling dilakukan.
– Estimasi model dengan menghilangkan d-observasi sekaligus, dilakukan berulang sampai sebanyak S kali, dimana S (S = n kombinasi d). Taksiran parameter diperoleh dengan merata-ratakan parameter yang diperoleh disetiap kali resampling.

Menggunakan boostrap atau jacknife ? Adalah sebuah pilihan, bergantung pada kasus yang dihadapi. Sekedar mengetahui estimasi parameter, atau perlu membangkitkan sejumlah data untuk mendapatkan estimasi parameter dan estimasi varians lebih robust.

Metode bootstrap dapat digunakan untuk berbagai hal, salah satu adalah menentukan nilai t statistik seperti yg dilakukan dalam model SEM Partial Least Square. Denga metode bootstarp atau melakukan resampling sampai 500 kali, maka kita dapat menghitung nilai standard error (SE) jika dikatehui standart errornya, maka kita dapat menghitung nilai t statistik dengan membagi koefisien regresi dengan standar errornya. Hanya setiap kali anda melakukan bootstrap nilai t statistik akan berbeda-beda karena menggunakan iterasi yang dilakukan secara random, tetapi dengan bootstraping 500 kali umunya hasilnya stabil sehingga jika dilihat dari nilai signifikansi statistik akan konsisten hasilnya walaupun nilai t berbeda-beda.

2 Comments

  1. paskani said,

    15 April 2010 at 12:06

    Saya ingin menanyakan…
    bagaimana jika data rataan dari hasil bootsrap tersebut tidak normal??
    Apa yang harus kita lakukan?? Apakah ada metode lain untuk mengatasinya??

  2. lia said,

    10 April 2011 at 08:45

    sy ingin menanyakan bagaimana penerapannya dalam mencari model time series???


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: