Kamis, 09 Januari 2014

Review Jurnal "PENGEMBANGAN DECISION TREE J48 UNTUK DIAGNOSIS PENYAKIT DIABETES MELLITUS"

Banyak penyandang DM yang terdiagnosis setelah mengalami komplikasi. Padahal, apabila dilakukan diagnosis secara dini, maka penanganan bisa dilakukan lebih cepat dan komplikasi yang membahayakan dapat dihindari.
Dalam perkembangan di dunia kedokteran saat ini, para peneliti dan praktisi memusatkan perhatiannya untuk mendeteksi kondisi DM dan mencegah atau menghambat berkembangnya komplikasi. Untuk mendukung hal ini dapat digunakan teknik data mining untuk menggali informasi yang berharga dari kumpulan informasi diabetes. Dalam penelitian ini dilakukan data mining dari dataset DM kelompok suku Pima Indians, Amerika Serikat, dimana berdasarkan penelitian yang dilakukan oleh National Institute of Diabetes and Digestive and Kidney Diseases (NIDDK) sejak tahun 1965 lebih dari 50% populasinya
Penelitian ini terbagi menjadi dua tahap yaitu pertama, tahap pre-processing data dan kedua, tahap penyusunan decision tree J48.

Tahap Pre-Processing Data
Identifikasi dan Pemilihan Atribut
Dataset dalam penelitian ini diambil dari repositori database Pima Indians, UCI. Table 1 menjelaskan atribut dataset diabetes Pima Indians. Dataset Pima ini terdiri dari 768 data klinis yang semuanya berasal dari jenis kelamin wanita dengan umur sekurang – kurangnya 21 tahun.
Penanganan Nilai Yang Tidak Lengkap
Dari hasil analisa dataset Pima Indians dapat diketahui bahwa tidak semua atribut memiliki nilai yang lengkap, dimana kelengkapan atribut ini akan menentukan seberapa baik hasil dari pengklasifikasi.
Untuk mengatasi nilai yang tidak lengkap pada masing – masing data atribut dapat dilakukan menggunakan empat cara.
  1. cara termudah dengan menghapus data yang tidak memiliki nilai, tetapi hal ini menyebabkan hilangnya informasi penting pada beberapa atribut yang lain.
  2. mengganti nilai yang hilang dengan menggunakan nilai rata-rata (mean), tetapi cara ini tidak sesuai jika jumlah nilai yang hilang sangat banyak karena akan menyebkan dataset tidak sesuai dengan kondisi sebenarnya.
  3. mengganti semua nilai yang tidak ada dengan nilai nol, tetapi hal ini akan menyebabkan hasil klasifikasi yang tidak baik.
  4. dengan mengganti nilai yang tidak ada dengan nilai yang dari tetangga sekelilingnya yang memiliki jarak atau kemiripan terdekat (eucledian distance).

Diskritisasi atribut bertujuan untuk mempermudah pengelompokan nilai berdasarkan kriteria yang telah ditetapkan. Hal ini juga bertujuan untuk menyederhanakan permasalahan dan meningkatkan akurasi dalam proses pembelajaran.

Tahap Penyusunan Decision Tree J48
Decision tree merupakan salah satu algoritma klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari dataset yang belum diklasifikasikan (pre classified dataset). Decision tree mengklasifikasikan data yang diberikan menggunakan nilai dari atribut.

Evaluasi Pengklasifikasi Decision Tree J48 Menggunakan K-Fold Cross-Validation
Dalam k-fold cross-validation, data pengujian dipisah secara acak ke dalam k himpunan bagian yang mutually exclusive atau “folds (lipatan)”, D1, D2,..., Dk, yang masing – masing kurang lebih berukuran sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, partisi Di digunakan sebagai data tes, dan partisi sisanya digunakan bersama untuk melatih model. Dalam iterasi pertama, yaitu himpunan bagian D2, ..., Dk secara bersama bertindak sebagai data pelatihan untuk memperoleh model pertama, yang diuji pada D1; iterasi kedua dilatih pada himpunan bagian D1, D3, ..., Dk dan diuji pada D2; dan. Dalam penelitian ini digunakan 10-fold crossvalidation. 

Dari hasil pengolahan dan uji coba menggunakan decision tree J48 pada dataset dihasilkan penyusunan informasi dalam bentuk tree. Ekstraksi informasi menggunakan data mining dari dataset kesehatan sangat efektif sebagai sistem pendukung kesehatan bagi praktisi kesehatan, dimana tujuan dari data mining adalah untuk mendapatkan pola informasi yang tersimpan dalam suatu basis data yang dapat digunakan untuk pengolahan selanjutnya dan sebagai bahan pendukung keputusan dalam diagnosis penyakit.

Sumber: http://eprints.dinus.ac.id/85/1/INFRM_30_-124_PENGEMBANGAN_DECISION_TREE_J48.pdf

2 komentar: