Anggri Yulio P
Web Developer, sekarang mulai jatuh hati pada Computer Vision.
October 14, 2018 1:54 am

Ekstrak Teks pada Gambar dengan Tesseract OCR

Saat melakukan pengumpulan data dalam proses text mining atau pencarian referensi lainnya tentu tak jarang kita menemukan sumber dalam bentuk gambar, hal ini tentu menyulitkan kita dalam proses pengolahan data tersebut (*baca copy-paste ) 😀

Tentu semua ada solusinya. Perkenalkan Tesseract OCR yang merupakan salah satu open source Optical Character Recognition (OCR) engine yang sangat populer. Saking populernya sejak 2016 lalu pengembangan Tesseract OCR didukung penuh oleh Google 1. Saat ini Tesseract sudah berjalan dengan baik di platform Windows, macOS dan juga Linux. Tesseract mendukung unicode (UTF-8), dan mendukung lebih dari 100 bahasa.

Di artikel ini kita akan mulai dengan proses instalasi Tesseract OCR, hingga melakukan uji coba ekstraksi teks pada gambar. Disini saya menggunakan sistem operasi Linux (Elementary OS 5.0 “Juno”). 

 

Instalasi Tesseract OCR

Lakukan penambahan repositori Tesseract OCR dan dilanjutkan dengan proses instalasi dengan perintah :

Pastikan paket Tesseract telah terpasang

Instalasi Tesseract OCR Linux

Tesseract OCR

Untuk instalasi pada sistem operasi lainnya silahkan merujuk ke dokumentasi official dari Tesseract OCR

 

Ekstraksi Teks dengan Tesseract OCR

Sampai disini paket Tesseract OCR sudah terpasang dengan baik. Mari kita coba melakukan ektraksi teks pada beberapa gambar yang saya ambil dari pencarian goo​gle. Perintah yang digunakan untuk melakukan ektraksi adalah  tesseract <input> <output>  dimana parameter input merupakan sumber gambar dan parameter output adalah nama file hasil keluaran dari proses ekstraksi teks Tesseract.

Percobaan Pertama :

Ekstrak Teks pada Gambar dengan Tesseract

Ekstrak Teks pada Gambar dengan Tesseract

Hasil :

Hasil Ekstraksi Teks pada Gambar

Hasil Ekstraksi Teks pada Gambar

Hasil ekstraksi gambar diatas menghasilkan teks yang sempurna, dimana tidak ada satupun kesalahan pada hasil ektraksi. Selanjutnya saya akan mencoba menggunakan gambar yang tidak begitu tajam, mempunyai noise dan sedikit blur.

Percobaan Kedua :

Ekstrak Teks pada Gambar dengan Tesseract

Ekstrak Teks pada Gambar dengan Tesseract

Hasil :

Hasil Ekstraksi Teks pada Gambar

Hasil Ekstraksi Teks pada Gambar

Ternyata teks yang dihasilkan tidak sempurna, mari kita coba meningkatkan hasil ekstraksi dengan memasang paket Tesseract Bahasa Indonesia dengan perintah :

Kemudian kita coba ekstrak kembali dengan menambahkan parameter bahasa indonesia  tesseract <input> <output> -l ind :

Ekstrak Teks pada Gambar dengan Tesseract OCR

Ekstrak Teks pada Gambar dengan Tesseract OCR

Wait, what ??? Kok hasil ekstraksi nya seperti itu ? Ternyata Tesseract tidak mampu melakukan ekstraksi dengan baik pada gambar yang mempunyai noise, blur dan karena penurusan kualitas gambar lainnya.

Jadi apakah ada solusinya ?

Tentu saja, kita bisa melakukan perbaikan gambar terlebih dahulu, atau kombinasikan dengan pengolahan citra untuk meningkatkan kualitas gambar, mengurangi noise atau mempertajam teks pada gambar tersebut.

Lalu bagaimana implementasinya ? 

Tenang-tenang, implementasi pengunaan Tesseract OCR dengan pengolahan citra digital akan saya bahas pada artikel selanjutnya (amin) 😀

 

Referensi

  1. Tesseract OCR – https://github.com/tesseract-ocr/tesseract#brief-history
%d bloggers like this: