Archivo de la etiqueta: ocr

OCR usando Google Drive

En el anterior artículo hablábamos de una aplicación para GNU/Linux que realiza OCR sobre imágenes.

Existen muchas webs que realizan este tipo de procesado (tenemos que subir la imagen y nos devuelven un archivo de texto). Normalmente tienen limitaciones de texto, de peso de imagen, de número de páginas, de formatos de salida aceptados, de tiempo…

Otra opción -que es la que os quería comentar en este pequeño post-, es usar Google Drive.

Para esto último tenemos que activar, dentro de Google Drive, las dos opciones que véis en la siguiente imagen (*):

Opción OCR Google Drive

Una vez hecho esto, cada vez que subamos un archivo de imagen o pdf nos preguntará si queremos convertirlo a texto.

Una vez hecho, cuando abramos el archivo aparecerá la imagen y a continuación todo el texto.

Hay una limitación de 10 hojas si se trata de un pdf. Para mejores resultados, y al igual que dijimos en el anterior artículo, tened en cuenta:

  • Mejor cuando mayor contraste (blanco y negro mejor que escala de grises)
  • Mejor cuanta más calidad tenga la imagen (sin pasarnos de peso en la imaegn, eso sí, que creo que es de 2 MB)
  • Mejor si el formato es sencillo (negrita, cursiva, tamaño de letra). Si incluye tablas, múltiples columnas, etc., el resultado no será muy fiable.

 

(*) Si le habéis dado a «probar la nueva versión de Google Drive» esta opción no aparece y tendréis que volver a esta versión para poder usarla (es posible que esté ya en la nueva versión pero yo no la ví en su momento).

OCR usando GNU/Linux

En la actual «era digital», todo resulta mucho más sencillo -la mayoría de las veces-, trabajando con los archivos en formato electrónico en lugar de en papel.

Además, para archivarlos es mucho más cómodo, no ocupan espacio físico en el despacho y además es todo más versátil (por ejemplo, puedes hacer búsquedas rápidamente en grandes cantidades de ficheros).

Dicho esto, está claro que además de tener archivos en formato electrónico, también nos encontramos con archivos en formato impreso (en papel, vaya). Estos últimos podemos escanearlos para guardarlos en el ordenador.

La «pega» es que si necesitamos editarlos esto no es posible porque, una vez escaneados, son una imagen -no son texto-. En cualquier caso, a estas alturas esto es algo que se soluciona fácilmente, existiendo aplicaciones que además de escanear realizan un reconocimiento óptico de caracteres (lo que se conoce como «OCR», por sus siglas en inglés: Optic Character Recognition).

Estas aplicaciones analizan la imagen en cuestión en busca de patrones que puedan parecerse a las letras de un idioma y signos de puntuación.

Si el documento tiene imágenes entre el texto y/o el formato no es sencillo (tiene tablas, columnas, etc.), el OCR no será todo lo preciso que podría, pero para la mayoría de documentos, cartas, informes, etc., nos hará un buen trabajo (quitándonos muchas horas de pasarlo de nuevo a ordenador tecleándolo entero).

Interesa que la imagen escaneada esté en una calidad aceptable. Cuando mayor contraste mejor (es decir, mejor escanear en blanco y negro que en escala de grises o color normalmente).

Lo que nos interesa a nosotros es, por tanto, encontrar un software que realice ocr en nuestro sistema operativo (GNU/Linux, claro). Yo os recomiendo la aplicación tesseract, la cuál fue desarrollada en su momento por HP y ahora es continuada por Google. Existe para la mayoría de las distros y es gratuita bajo la licencia Apache 2.0. Si vuestra distro no la trae en los repositorios oficiales (no será una distro muy conocida entonces), Podéis descargarla aquí:

Usar la aplicación es sencillo:

tesseract IMAGEN.png SALIDA -l spa

donde:

  • IMAGEN.png es nuestra imagen escaneada (acepta varios formatos, entre ellos png)
  • SALIDA es el fichero de salida que se genera con el texto
  • con -l spa indicamos que el texto está en español (admite muchos más idiomas (*))

(*) Para ver qué idiomas tenemos instalados escribimos: tesseract –list-langs.