Anggri Yulio P
Web Developer, sekarang mulai jatuh hati pada Computer Vision.
June 3, 2017 11:55 am

Stopword Removal Bahasa Indonesia dengan Python Sastrawi

Tulisan ini masih terkait dengan tulisan saya sebelumnya tentang penggunaan library Python Sastrawi dalam proses steeming Bahasa Indonesia. Pada tulisan ini saya akan menjelaskan tentang proses Stopword Removal tentu saja dengan menggunakan Python Sastrawi.

Dalam NLP (Natural Language Processing) stop word merupakan kata yang diabaikan dalam pemrosesan, kata-kata ini biasanya disimpan ke dalam stop lists. Karakteristik utama dalam pemilihan stop word biasanya adalah kata yang mempunyai frekuensi kemunculan yang tinggi misalnya kata penghubung seperti “dan”, “atau”, “tapi”, “akan” dan lainnya. Tidak ada aturan pasti dalam menentukan stop word yang akan digunakan, penentuan stop word bisa disesuaikan dengan kasus yang sedang diselesaikan.

Tujuan utama dalam penerapan proses Stopword Removal adalah mengurangi jumlah kata dalam sebuah dokumen yang nantinya akan berpengaruh dalam kecepatan dan peforma dalam kegiatan NLP.

Python Sastrawi

Seperti yang telah saya jelaskan pada tulisan sebelumnya bahwa Python Sastrawi merupakan library python dalam melakukan stemming kata kebentuk dasar nya (root). Selain Python Sastrawi juga mendukung proses Stopword Removal.

Stopword Removal dengan Python Sastrawi

Untuk memulai proses Stopword Removal pastikan kita menginstall library Sastrawi, silahkan baca tulisan saya tentang instalasi library Python Sastrawi. Selanjutnya adalah mengimport kelas StopWordRemoverFactory  dari library sastrawi.

Sebelumnya mari kita lihat apa saja stop word yang telah didefinisikan terlebih dahulu dalam library ini.

 

stop list python sastrawi

stop list python sastrawi

Gambar di atas merupakan stop word yang terdapat di dalam stop list library sastrawi. Kita bisa menambah atau mengurangi stop word sesuai kebutuhan kita. Untuk menerapkan proses Stopword Removal silahkan lihat potongan kode di bawah :

Kode di atas akan memerintahkan library sastrawi memeriksa term satu persatu apakah term tersebut terdapat dalam stop list atau tidak, jika tidak terdapat dalam stop list maka kata tersebut akan dikembalikan. Kode di atas akan megambalikan kalimat “Dengan Menggunakan Python Library Sastrawi dapat melakukan proses Stopword Removal” dimana library sastrawi menghilangkan kata “dan” dan “saya”.

 

%d bloggers like this: