
Uno de los propósito de este blog, además de mostrar alternativas libres para el trabajo diario en arqueología, era servirme como recordatorio de ciertas aplicaciones que a veces se me olvidan.
OCR son las siglas en inglés de reconocimiento óptico de caracteres. Es decir, que si tenemos una imagen de un texto, podemos pasarla a algún formato que nos permita editar el mismo. En esta entrada del blog voy a hablar de Tesseract, que como podemos leer en La Mirada del Replicante posiblemente el motor OCR libre, más potente del mercado, originalmente diseñada por Hewlett-Packard y en los últimos años mantenido por Google, cuenta con varias interfaces gráficas para facilitar su manejo, como es el caso de gImageReader, un frontend GTK.
Tesseract puede utilizarse mediante línea de comandos, veamos cómo funciona.
tesseract [archivo_entrada] [archivo_salida]
Esto es, si tenemos un fichero llamado imagen_escaneada.png, y lo queremos convertir en texto.txt, únicamente iríamos al directorio donde esté la imagen y teclaeamos la orden de arriba. El archivo de salida es .txt
tesseract imagen_escaneada.png texto
gImageReader es un frontend del anterior, se puede instalar desde los repositorios de Ubuntu, sin embargo, al hacer esto no reconocerá los diccionarios y nos dirá que el reconocimiento de texto no es posible, por lo tanto la instalación correcta sería:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng
Si lo hicimos desde los repositorios, únicamente tendríamos que instalar el último «sudo».
El proceso de adquisición de documentos es muy sencillo, con el botón [+] de la izquierda tenemos dos opciones en forma de pestaña, bien para una fichero que ya tengamos en nuestro dispositivo, bien para adquirir una desde el escáner.

Una vez seleccionado nos aparecerá en la parte central y en la barra superior, tenemos varias opciones según el tipo de documento que queramos analizar.

Una vez seleccionado, únicamente hay que pulsar reconocer texto en el idioma que queramos y aparecerá a la derecha de la pantalla.
