September 12, 2008

Perlunya Visualisasi Data

Ilmu statistik di-identikkan oleh sebagian besar orang sebagai ilmu pengolahan data, penganalisaan data hingga menyampaikan informasi dari data tersebut. Statistik uji seperti Uji T, uji F dan uji Chi-Square kerap ditetapkan sebagai pembenaran atau penolakkan hipotesa sehingga didapatkan kesimpulan tertentu.

Contoh sederhananya seperti kasus berikut :
Seorang pengusaha restoran ingin melihat pengeluaran makan per transaksi di sebuah restorannya dari beberapa kelompok pelanggan. Ada 5 kelompok pelanggan (berdasarkan suku/ras), dan pengusaha ini sudah memiliki dugaan bahwa ada perbedaan dana yang dikeluarkan pelanggan untuk restoran mereka per satu kali transaksi karena adanya asumsi perbedaan selera dan perilaku antar suku/ras. Maka pengusaha itu mencoba menguji hipotesisnya dengan menerapkan ANOVA dan hasilnya adalah sebagai berikut :



Jika melihat hasil itu (dengan p-value : 0.0000), dengan hipotesa nol tidak ada perbedaan pengeluaran makan di restoran antar kelima kelompok pelanggan, maka dugaan pengusaha restoran ini memang benar. Hipotesa nol ditolak dan artinya ada perbedaan pengeluaran makan di restoran untuk kelima kelompok pelanggan. Lalu pengusaha tergelitik untuk mengetahui, kelompok mana dengan pengeluaran makan terbesar dan terkecil, maka dilihatlah tabel berikut :


Ternyata rata-rata pengeluaran makan terbesar adalah di Kelompok 1 dan terkecil di Kelompok 2. Sebelumnya pengusaha itu juga sudah mencurigai kondisi ini yang dia sebut dengan "intuisi". Akhirnya, segera dia merubah program pemasarannya, mendekati pelanggan-pelanggan di kelompok 1 dan 5. Dia pikir, yaaa...kelompok 2 memang sudah sulit ditingkatkan karena asumsi bahwa mereka lebih suka makan di rumah.

Jika analisis pengusaha ini berhenti sampai disini saja, dan ternyata strateginya tidak berhasil, maka tidak selayaknya data dan statistik dipersalahkan. Kenapa? Coba lihat Boxplot ini :


WOW, ternyata banyak sekali outlier (data pencilan) dan pengamatan berpengaruh pada data ini. Ini jelas mempengaruhi nilai rata-rata dan ANOVA. Ternyata di kelompok 2 pun ada yang pengeluarannya makannya tinggi dan bahkan tertinggi di kelompok 3. Coba saja pakai konsep Trimmed mean yaitu memotong data dibawah kuartil 1 dan diatas kuartil 3. (Langkah ini tidak dilakukan sebagai solusi akhir, karena saya hanya mencoba menunjukkan adanya pengaruh oulier yang sebegitu banyaknya pada data ini). ANOVA dan Boxplot dengan memotong data diatas kuartil 3 akan menjadi seperti ini :



Setelah melihat kondisi ini, tak ada perbedaan yang signifikan antar kelompok, bukan ?

Melihat hal ini bisa jadi dasar pengelompokkan pelanggannya yang kurang tepat, bisa jadi bukan suku/ ras yang mendasari perbedaan pengeluaran makan.

Ini adalah salah satu kesalahan analisa yang keliru, terutama di sebuah organisasi yang terlampau sering menggunakan rata-rata sebagai indikator. Visualisasi secara grafis mempermudah kita melihat kondisi data yang sebenarnya, melakukan eksplorasi data sebelum kita mulai mengolah data dengan analisa statistik dan menguji hipotesa.

Related Posts:

0 komentar: