Pemilihan fitur (feature selection) atau turut dikenali sebagai pemilihan atribut merupakan sebahagian daripada konsep yang terdapat dalam bidang perlombongan data. Ia sering dilaksanakan dalam fasa prapemprosesan data. Objektif proses pemilihan fitur adalah bagi memilih subset fitur optimum daripada set fitur asal dengan cara menyingkirkan fitur yang tidak relevan, lewah (redundant) dan hingar (noise).[1] Penggunaan subset fitur yang optimum dalam model pembelajaran mesin mampu meningkat ketepatan ramalan, mengurangkan kompleksiti model serta mengurangkan kos pengkomputeran.[1]
Pemilihan fitur juga merupakan salah satu teknik yang dilaksanakan bagi mengelakkan berlakunya curse of dimentionality.[2] Suatu model dikatanya menghadapi isu curse of dimentionality apabila semakin tinggi dimensi fitur, prestasi model semakin merosot. Curse of dimentionality mengakibatkan terjadinya isu terlebih padanan iaitu keadaan di mana model yang dibangunkan hanya menunjukkan prestasi yang baik apabila menggunakan data ujian namun sebaliknya berlaku apabila data baharu digunakan.
Secara umumnya kaedah pemilihan fitur dikategorikan kepada penapis (filter), pembalut (wrapper) dan hibrid[3]. Perincian mengenai kaedah pemilihan fitur diterangkan dalam subtopik berikutnya.
Kaedah penapis (filter) merupakan kaedah pemilihan fitur yang paling ringkas di mana ujian statistik tertentu dilaksanakan bagi menentukan pemeringkatan fitur (feature ranking). Ia dilaksanakan sama ada berdasarkan ukuran kesandaran, jarak atau konsistensi di antara suatu fitur dengan kelas sasaran. Information gain dan Pearson’s correlation merupakan contoh ujian statistik yang menggunakan ukuran kesandaran manakala algoritma Relief adalah contoh yang menggunakan ukuran jarak. Pemilihan ujian statistik untuk digunakan perlu bersesuaian dengan jenis fitur yang ingin diproses sebagai contoh information gain hanya sesuai untuk fitur berjenis nominal manakala Pearson’s correlation sesuai digunakan untuk data numerik dan binomial sahaja.
Pemilihan fitur menerusi kaedah penapis dilaksanakan dalam dua langkah seperti berikut:
Antara kaedah yang digunakan untuk menentukan nilai ambang adalah berdasarkan jurang terbesar nilai skor di antara dua fitur berturutan yang disusun secara bertingkat[4] atau menyingkirkan fitur dengan skor yang melebihi dua varians daripada nilai min skor[5].
Kelebihan ketara kaedah pemilihan fitur secara penapis adalah penggunaan kos pengkomputeran yang minimum dan masa pemprosesan yang sangat pantas. Oleh itu ia amat sesuai digunakan untuk memilih subset fitur daripada set data yang bersaiz besar. Namun disebabkan keringkasan kaedah penapis yang tidak mengambil kira interaksi di antara fitur-fitur, terdapat kebarangkalian wujudkan masalah kelewahan fitur apabila subset fitur dipilih.
Berbeza dengan kaedah penapis, kaedah pembalut (wrapper) menggunakan algoritma pembelajaran seperti Pohon Keputusan, Naive Bayes, Hutan Rawak dan lain-lain bagi menjana subset fitur. Secara umumnya, empat langkah utama yang terlibat dalam proses pemilihan fitur kaedah pembalut adalah seperti berikut:
Startegi carian | Penerangan |
---|---|
Strategi carian menyeluruh | Dalam strategi carian secara menyeluruh, semua kombinasi fitur dijana dan dinilai bagi mendapatkan subset fitur optimum. Bagi set data dengan sejumlah j fitur, bilangan subset yang perlu dijana dan dinilai adalah sebanyak 2j-1. Contohnya bagi set data dengan 4 fitur iaitu {a, b, c, d}, sebanyak 24-1 = 15 subset dijana dan dinilai. Proses janaan dan penilaian dimulakan dengan subset yang mengandungi satu fitur sahaja iaitu {a}, {b} ... {d}. Kemudian diikuti dengan subset yang terdiri daripada dua fitur iaitu {a, b}, {a,c} ... {c,d}. Proses janaan dan penilaian subset diulang sehingga subset dengan semua fitur dipilih. Proses janaan subset diilustrasi seperti dalam Rajah di sebelah.
|
Strategi carian berjujukan | Dalam strategi carian secara berjujukan, fitur dipilih atau disingkirkan satu persatu secara berjujukan sehingga subset optimum diperoleh. Tiga variasi strategi carian berjujukan adalah:
Proses janaan subset dimulakan dengan set kosong. Seterusnya secara berjujukan, fitur dengan nilai fungsi objektif tertinggi apabila digabungkan dengan fitur-fitur yang telah dipilih ditambah ke dalam subset.
Proses janaan subset dimulakan dengan keseluruhan set data. Seterusnya fitur yang menyebabkan pengurangan nilai fungsi objektif yang paling rendah disingkirkan secara berjujukan satu persatu daripada set data. Kaedah penyingkiran undur sesuai digunakan bagi menjana subset fitur optimum yang mengandungi bilangan fitur yang banyak kerana proses janaan subset dimulakan dengan keseluruhan set data.
Merupakan gabungan antara pemilihan ke depan dan penyingkiran undur yang dilaksanakan secara serentak. Bagi mengelakkan pemilihan ke depan dan penyingkiran undur daripada memilih dan menyingkirkan fitur yang sama, algoritma dua arah mensyaratkan supaya fitur yang telah dipilih oleh pemilihan ke depan tidak lagi boleh disingkirkan oleh penyingkiran undur dan begitu juga sebaliknya. Contohnya sebelum pemilihan ke depan menambah suatu fitur, ia akan menyemak terlebih dahulu sama ada fitur tersebut telah disingkirkan oleh penyingkiran undur. Jika ya, pemilihan ke depan akan mengabaikan fitur tersebut dan akan menambah fitur kedua terbaik.
|
Strategi carian rawak | Bagi set data yang mengandungi sehingga ribuan fitur seperti dalam aplikasi pemprosesan teks, bahasa tabii dan bioinformatik, proses carian subset yang melibatkan keseluruhan feature space adalah tidak praktikal kerana memerlukan sumber pemprosesan yang tinggi. Dalam aplikasi sebegini, strategi pemilihan secara rawak adalah lebih efisien untuk digunakan kerana ia melaksanakan pemilihan fitur pada sebahagian feature space sahaja. Menerusi strategi carian secara rawak, pemilihan fitur dibuat berdasarkan prinsip pemilihan semula jadi yang mengandungi ciri rawak. Ciri-ciri rawak yang digunakan ini menyebabkan isu local optima dapat dielakkan[2].
Rajah 2.12 menunjukkan algoritma janaan subset dengan strategi carian berjujukan algoritma genetik. Penyilangan dan mutasi merupakan dua parameter penting dalam algoritma genetik. Rajah 2.13 menggambarkan contoh proses penyilangan dan mutasi. Merujuk kepada Rajah 2.13, proses penyilangan dilaksanakan menggunakan kaedah titik penyilangan tunggal dan proses mutasi dilaksanakan dengan menukar nilai individu. |
Dalam kaedah pemilihan fitur secara pembalut ini, langkah pertama iaitu jana subset merupakan antara elemen penting. Penerangan lanjut berkaitan strategi carian yang boleh digunakan bagi menjana subset dihuraikan dalam sub topik berikutnya.
Satu lagi kaedah pemilihan fitur yang sering digunakan adalah gabungan antara kaedah penapis dan pembalut iaitu dikenali sebagai kaedah hibrid. Kaedah hibrid diperkenalkan bagi memanfaatkan kelebihan yang ada pada kaedah penapis iaitu efisien dan ciri lazim kaedah pembalut iaitu ketepatan.
Dalam kaedah hibrid, pemilihan fitur dilaksanakan dalam dua peringkat.