logo
Secciones

Entradas del blog


OCR - Simple y rápido en Linux

6 comentarios


A puesto a que todos en alguna ocasión, hemos tenido que copiar algún texto que nos pasaron en formato PDF, pero resulta que el PDF estaba compuesto por imágenes escaneadas, por ente no era posible copiar y pegar.

Pero gracias al Recocimiento Óptico de Carácteres (OCR), es posible obtener el texto a partir de una imagen escaneada.

Les hablo de gImageReader: es un software de código abierto, disponible en GitHUb-gImageReader y es posible instalarlo en algunas distribuciones de GNU/Linux.


Las funciones que este sotware permite realizar son las siguientes:
- Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, portapapeles y capturas de pantalla.
- Procesar múltiples imágenes y documentos de una sola vez
- Definir del área de reconocimiento manual o automática
- Reconocer a texto sin formato o documentos hOCR
- Mostrar el texto reconocido directamente junto a la imagen
- Procesar el texto reconocido, incluida la revisión ortográfica

- Generar documentos PDF desde el documento hOCR

En Fedora se instala con el siguiente comando:

sudo dnf install gimagereader-gtk

En Aprcity o derivados de Arch

yaourt -S gimagereader

En este software, permite ajustar el idioma en el que se desea obtener el texto.


Es simple, fácil de utilizar y muy útil. No es el más completo o super reconocedor de imágenes, pero es bastante bueno para ser de código libre.


Hasta ahora, es el que utilizo, y me ha servido bastante, sobre todo para hacer pequeños reconocimientos. Un escaneado o una captura de pantalla, nada complicado, tampoco esperen que reconozca letras de doctores o médicos, ya saben que esas solo las reconocen los farmacéuticos, cómo le hacen? no lo sé.


Otras opciones para Fedora, son las siguientes.

Comentarios:

  • Fernando Merino
    hace 7 años
    así es... no es el mejor que digamos, pero cumple su cometido, para ser software libre, la verdad es bastante bueno. Además, si pones en idioma español, incluso corrigue ortografía.
  • Onai ツ
    hace 7 años
    Desde fedora realice la instalacion de gimagereader, shutter y krita para luego manos a la obra :D
    Hice la prueba con un pdf de 8 lineas de texto y paso la prueba(la parte facil). La parte dificil es con las imagenes, volvi este pdf imagen y lo importe con krita ,edite el texto como si le hubiera echado agua a un documento para luego volverlo pdf con shutter. tan tan paso la prueba, aunque se equivoco con la "l" , "1" y la "i" se confunde con estos y la "n" con la "m". En general me agrado el resultado. Incluso abbyy falla con la i,l,1 xD
  • Fernando Merino
    hace 7 años
    Ok, no hay problema... con gusto puedes publicar... en estos días estaré subiendo post sobre actualizaciones, paquetes etc, en Fedora 25
  • Onai ツ
    hace 7 años
    Salio fedora 25 a actualizar!
    No tengo blog, no soy bueno redactando y ando corto de tiempo xD
    Te comentare que tal me fue en los comentarios.
  • Fernando Merino
    hace 7 años
    Gracias por comentar.

    Excelente, prueba y luego comentas, tienes blog para ir leyendo tus experiencia???.
  • Onai ツ
    hace 7 años
    Recuerdo que hace meses tuve la necesidad de usar un programa asi para evitar tipear un documento de 20 hojas. Busque en google un programa libre y no llegue a encontrar mucho. Termine usando abbyy xD es muy bueno reconociendo caracteres. No es libre, Así que si hay tiempo intentare probar con estos programas libres a ver que tal van :D
    Saludos!
Conoce la red social linuxClick
Redes sociales
Accesos directos