Archivo de la etiqueta: tesseract

OCR usando GNU/Linux

En la actual «era digital», todo resulta mucho más sencillo -la mayoría de las veces-, trabajando con los archivos en formato electrónico en lugar de en papel.

Además, para archivarlos es mucho más cómodo, no ocupan espacio físico en el despacho y además es todo más versátil (por ejemplo, puedes hacer búsquedas rápidamente en grandes cantidades de ficheros).

Dicho esto, está claro que además de tener archivos en formato electrónico, también nos encontramos con archivos en formato impreso (en papel, vaya). Estos últimos podemos escanearlos para guardarlos en el ordenador.

La «pega» es que si necesitamos editarlos esto no es posible porque, una vez escaneados, son una imagen -no son texto-. En cualquier caso, a estas alturas esto es algo que se soluciona fácilmente, existiendo aplicaciones que además de escanear realizan un reconocimiento óptico de caracteres (lo que se conoce como «OCR», por sus siglas en inglés: Optic Character Recognition).

Estas aplicaciones analizan la imagen en cuestión en busca de patrones que puedan parecerse a las letras de un idioma y signos de puntuación.

Si el documento tiene imágenes entre el texto y/o el formato no es sencillo (tiene tablas, columnas, etc.), el OCR no será todo lo preciso que podría, pero para la mayoría de documentos, cartas, informes, etc., nos hará un buen trabajo (quitándonos muchas horas de pasarlo de nuevo a ordenador tecleándolo entero).

Interesa que la imagen escaneada esté en una calidad aceptable. Cuando mayor contraste mejor (es decir, mejor escanear en blanco y negro que en escala de grises o color normalmente).

Lo que nos interesa a nosotros es, por tanto, encontrar un software que realice ocr en nuestro sistema operativo (GNU/Linux, claro). Yo os recomiendo la aplicación tesseract, la cuál fue desarrollada en su momento por HP y ahora es continuada por Google. Existe para la mayoría de las distros y es gratuita bajo la licencia Apache 2.0. Si vuestra distro no la trae en los repositorios oficiales (no será una distro muy conocida entonces), Podéis descargarla aquí:

Usar la aplicación es sencillo:

tesseract IMAGEN.png SALIDA -l spa

donde:

  • IMAGEN.png es nuestra imagen escaneada (acepta varios formatos, entre ellos png)
  • SALIDA es el fichero de salida que se genera con el texto
  • con -l spa indicamos que el texto está en español (admite muchos más idiomas (*))

(*) Para ver qué idiomas tenemos instalados escribimos: tesseract –list-langs.