Saat melakukan pengumpulan data dalam proses text mining atau pencarian referensi lainnya tentu tak jarang kita menemukan sumber dalam bentuk gambar, hal ini tentu menyulitkan kita dalam proses pengolahan data tersebut (*baca copy-paste ) 😀
Tentu semua ada solusinya. Perkenalkan Tesseract OCR yang merupakan salah satu open source Optical Character Recognition (OCR) engine yang sangat populer. Saking populernya sejak 2016 lalu pengembangan Tesseract OCR didukung penuh oleh Google 1. Saat ini Tesseract sudah berjalan dengan baik di platform Windows, macOS dan juga Linux. Tesseract mendukung unicode (UTF-8), dan mendukung lebih dari 100 bahasa.
Di artikel ini kita akan mulai dengan proses instalasi Tesseract OCR, hingga melakukan uji coba ekstraksi teks pada gambar. Disini saya menggunakan sistem operasi Linux (Elementary OS 5.0 “Juno”).
Instalasi Tesseract OCR
Lakukan penambahan repositori Tesseract OCR dan dilanjutkan dengan proses instalasi dengan perintah :
1 2 3 |
sudo add-apt-repository ppa:alex-p/tesseract-ocr sudo apt-get update sudo apt install tesseract-ocr |
Pastikan paket Tesseract telah terpasang

Tesseract OCR
Untuk instalasi pada sistem operasi lainnya silahkan merujuk ke dokumentasi official dari Tesseract OCR
Ekstraksi Teks dengan Tesseract OCR
Sampai disini paket Tesseract OCR sudah terpasang dengan baik. Mari kita coba melakukan ektraksi teks pada beberapa gambar yang saya ambil dari pencarian google. Perintah yang digunakan untuk melakukan ektraksi adalah tesseract <input> <output> dimana parameter input merupakan sumber gambar dan parameter output adalah nama file hasil keluaran dari proses ekstraksi teks Tesseract.
Percobaan Pertama :

Ekstrak Teks pada Gambar dengan Tesseract
Hasil :

Hasil Ekstraksi Teks pada Gambar
Hasil ekstraksi gambar diatas menghasilkan teks yang sempurna, dimana tidak ada satupun kesalahan pada hasil ektraksi. Selanjutnya saya akan mencoba menggunakan gambar yang tidak begitu tajam, mempunyai noise dan sedikit blur.
Percobaan Kedua :

Ekstrak Teks pada Gambar dengan Tesseract
Hasil :

Hasil Ekstraksi Teks pada Gambar
Ternyata teks yang dihasilkan tidak sempurna, mari kita coba meningkatkan hasil ekstraksi dengan memasang paket Tesseract Bahasa Indonesia dengan perintah :
1 |
sudo apt install tesseract-ocr-ind |
Kemudian kita coba ekstrak kembali dengan menambahkan parameter bahasa indonesia tesseract <input> <output> -l ind :

Ekstrak Teks pada Gambar dengan Tesseract OCR
Wait, what ??? Kok hasil ekstraksi nya seperti itu ? Ternyata Tesseract tidak mampu melakukan ekstraksi dengan baik pada gambar yang mempunyai noise, blur dan karena penurusan kualitas gambar lainnya.
Jadi apakah ada solusinya ?
Tentu saja, kita bisa melakukan perbaikan gambar terlebih dahulu, atau kombinasikan dengan pengolahan citra untuk meningkatkan kualitas gambar, mengurangi noise atau mempertajam teks pada gambar tersebut.
Lalu bagaimana implementasinya ?
Tenang-tenang, implementasi pengunaan Tesseract OCR dengan pengolahan citra digital akan saya bahas pada artikel selanjutnya (amin) 😀
Incoming Terms
- Tesseract Ocr
- Tesseract Ocr Indonesia
- Opencv Untuk Apa
- Tesseract Ocr Bahasa Indonesia
Referensi
