Cómo extraer texto de archivos PDF e imágenes en Linux usando gImageReader

Si eres un estudiante o tu trabajo implica trabajar con muchas imágenes y archivos PDF, en algún momento habrás sentido la necesidad de extraer texto de una imagen o un documento.

Afortunadamente, la extracción de texto lo hace posible. Y hay varias herramientas que puedes usar para hacer esto. gImageReader es una de las muchas herramientas. Es de uso gratuito y funciona tanto con archivos de imagen como con documentos PDF.

Profundicemos para ver gImageReader en detalle y ver cómo puede usarlo para extraer texto de imágenes y archivos PDF.

¿Qué es gImageReader?

gImageReader es una aplicación que te permite extraer texto de imágenes y archivos PDF en Linux. Es esencialmente una GUI o front-end para el motor Tesseract OCR, un fuente abierta motor desarrollado por Hewlett-Packard que se considera uno de los mejores motores de OCR disponibles.

Con gImageReader, puede extraer fácilmente y con bastante precisión texto de imágenes o documentos PDF con unos pocos clics. A continuación, puede exportar el texto extraído a un archivo de texto o PDF para su uso posterior.

instagram viewer

Características de gImageReader

gImageReader incluye las siguientes funciones:

Importe documentos PDF e imágenes de diferentes fuentes (disco, dispositivos de escaneo, portapapeles y capturas de pantalla)
Procese imágenes o documentos por lotes, es decir, extraiga texto de varias imágenes o documentos a la vez
Reconocer fragmentos de texto como texto sin formato o documentos hOCR
Corrector ortográfico incorporado
Detección automática de área de texto
Edición básica de imágenes/documentos
Guardar la salida como un archivo de texto

Cómo instalar gImageReader en Linux

gImageReader está disponible en la mayoría de las principales distribuciones de Linux. Pero antes de continuar con su instalación, debe instalar el motor Tesseract OCR en su sistema.

Para ello, abra el Administrador de software en su sistema y busque teseracto. Cuando devuelva una lista de resultados, instale el tesseract-ocr y tesseract-ocr-esp paquetes También puede usar administradores de paquetes de línea de comandos para instalar el paquete si se siente más cómodo con la terminal.

Después de esto, consulte las instrucciones de instalación en las siguientes secciones para instalar gImageReader en su computadora.

Si está en Debian o Ubuntu, abra la terminal y ejecute los siguientes comandos para instalar gImageReader:

sudo add-apt-repositorio ppa: sandromani/gimagereader
sudo apt-obtener actualizar
sudo apto Instalar en pc gimagereader

En Fedora, CentOS o Red Hat Enterprise Linux (RHEL):

sudo dnf Instalar en pc gimagereader-qt

En arco linux o Manjaro:

sudo pacman -S gimagereader

Los usuarios de openSUSE pueden instalar gImageReader usando:

sudo cremallera Instalar en pc gimagereader

En caso de que esté utilizando cualquier otra distribución de Linux, puede compilar gImageReader desde la fuente siguiendo las instrucciones en GitHub de gImageReader.

Cómo usar gImageReader en Linux

gImageReader es bastante fácil de usar y funciona con todo tipo de archivos de imagen, así como con documentos PDF. Siga las instrucciones a continuación para extraer texto de imágenes o archivos PDF en Linux.

Abra el menú de aplicaciones, busque gImageReadery ejecute la aplicación. Golpea el Maximizar en la ventana de gImageReader para abrirlo en vista de pantalla completa.

Ahora, haga clic en el Añadir imágenes en el panel izquierdo debajo de la barra de herramientas y use el explorador de archivos para seleccionar la(s) imagen(es) o PDF(s) de los que desea extraer el texto.

Hacer clic OK para importar la(s) imagen(es) o PDF(s) a gImageReader. O, si desea extraer texto de lo que se muestra en la pantalla, haga clic en el menú desplegable al lado del Añadir imágenes botón y seleccione Tomar captura de pantalla. gImageReader tomará una captura de pantalla del contenido de la pantalla.

Una vez que haya agregado la imagen a gImageReader, haga clic en el Alternar panel de salida (uno con el icono del bloc de notas) para abrir el panel de salida. Aquí es donde aparece el texto que extrae de las imágenes o archivos PDF.

Dependiendo de cómo desee proceder, ahora tiene la opción de identificar el texto en la imagen o PDF de forma automática o manual. Para hacer esto automáticamente, haga clic en el Diseño de detección automática y resaltará todos los bloques de texto en la imagen o documento PDF seleccionado.

Después de esto, toca Reconocer selección > Página actual para comenzar el proceso de extracción de texto.

Alternativamente, para seleccionar el texto manualmente, desplace el cursor sobre el texto que desea extraer y, usando la cruz, dibuje un cuadro alrededor del área desde donde desea extraer el texto. Luego, golpea el Reconocer selección botón para proceder.

Si es un documento PDF y desea extraer texto de diferentes páginas, toque el botón Más (+) para pasar las páginas.

Para volver, pulsa el Menos (-) botón. Y luego, seleccione el texto que desea extraer y presione el botón Reconocer selección botón para extraerlo.

Aunque es raro, puede haber ocasiones en las que gImageReader devuelva el texto extraído en un idioma que no sea inglés. Cuando esto suceda, simplemente toque el botón desplegable al lado Reconocer selección y seleccione una de las opciones en inglés.

Finalmente, para guardar el texto extraído, haga clic en el Guardar salida botón. Esto abrirá la ventana Guardar. Aquí, dale un nombre al archivo y presiona OK.

¿Qué más puedes hacer con gImageReader?

Como se mencionó anteriormente, gImageReader también le brinda la opción de modificar ciertos aspectos de las imágenes o documentos importados, como su brillo, contraste y resolución. Además, también puede invertir colores o rotar las imágenes o documentos, si es necesario.

La mayoría de estas opciones pueden resultar útiles cuando el texto de una imagen o documento no es legible para gImageReader y, por lo tanto, impide que la herramienta reconozca el texto.

Para acceder a cualquiera de estas opciones de edición, haga clic en el Controles de imagen y mostrará una mini barra de herramientas debajo de la barra de herramientas principal. Desde aquí, seleccione los botones apropiados para realizar la operación de edición deseada en la imagen o documento.

Extracción de texto en Linux simplificada con gImageReader

La extracción de texto a menudo requiere la herramienta adecuada: una que emplee un motor OCR fiable y preciso que le permite identificar texto en una imagen o documento de manera efectiva, para que pueda extraerlo de manera eficiente sin ningún tipo de molestia.

gImageReader logra esto muy bien, gracias al motor Tesseract OCR que usa en segundo plano. Teniendo en cuenta su facilidad de uso, gImageReader es sin duda una de las mejores herramientas de extracción de texto disponibles para Linux.

Alternativamente, si está buscando una solución más simple, puede consultar TextSnatcher, que es rápido y bastante fácil de usar.

About Technology - denizatm.com

Cómo extraer texto de archivos PDF e imágenes en Linux usando gImageReader

¿Qué es gImageReader?

Características de gImageReader

Cómo instalar gImageReader en Linux

Cómo usar gImageReader en Linux

¿Qué más puedes hacer con gImageReader?

Extracción de texto en Linux simplificada con gImageReader

Categorías

Recent Post

OS X Mountain Lion está lejos de ser perfecto y he aquí por qué

El estado de entrega rastrea todos sus paquetes desde el panel de Mac

StifleStand: Ocultar la aplicación iOS Kiosco dentro de una carpeta [iPhone y Mac]