Anuncio

Sacar texto de las imágenes nunca ha sido más fácil de lo que es hoy gracias a la tecnología de reconocimiento óptico de caracteres (OCR).

OCR nos permite hacer todo tipo de cosas útiles, como buscar imágenes mediante consultas de texto, reproducir documentos sin tener que escribirlos a mano e incluso Convertir texto escrito a mano en texto digital Cómo convertir una imagen con escritura a mano a texto usando OCR¿Necesita digitalizar notas escritas a mano para editarlas o guardarlas para más adelante? Estas son las mejores herramientas de OCR para convertir la escritura a mano en texto. Lee mas .

Pero, ¿qué es el reconocimiento óptico de caracteres? ¿Cómo funciona realmente? Puede parecer magia negra para usted, pero al final de este artículo, tendrá una sólida comprensión de cómo las computadoras pueden reconocer letras y palabras.

Cómo funciona el reconocimiento óptico de caracteres

Para comprender cómo se extrae el texto de una imagen, primero tenemos que entender qué son las imágenes y cómo se almacenan en las computadoras.

instagram viewer

UNA píxel es un solo punto de un color particular. Un imagen Es esencialmente una colección de píxeles. Cuantos más píxeles haya en una imagen, mayor será su resolución. Una computadora no sabe que una imagen de una señal es realmente una señal, solo sabe que el primer píxel es este color, el siguiente píxel es ese color y muestra todos sus píxeles para que usted los vea.

Esto significa que el texto y el no texto no son diferentes a una computadora, y es por eso que el reconocimiento óptico de caracteres es tan difícil. Con eso en mente, así es como funciona.

Paso 1: preprocesamiento de la imagen

Antes de que se pueda extraer el texto, la imagen debe masajearse de ciertas maneras para que la extracción sea más fácil y más probable que tenga éxito. Esto se llama preprocesamiento, y las diferentes soluciones de software utilizan diferentes combinaciones de técnicas.

Las técnicas de preprocesamiento más comunes incluyen:

Binarización
Cada píxel de la imagen se convierte en blanco o negro. El objetivo es dejar en claro qué píxeles pertenecen al texto y qué píxeles pertenecen al fondo, lo que acelera el proceso real de OCR.

Binarización para reconocimiento óptico de caracteres

Torcer
Dado que los documentos rara vez se escanean con una alineación perfecta, los caracteres pueden terminar inclinados o incluso al revés. El objetivo aquí es identificar líneas de texto horizontales y luego rotar la imagen para que esas líneas sean realmente horizontales.

Despeckle
Ya sea que la imagen haya sido binarizada o no, puede haber ruido que pueda interferir con la identificación de los caracteres. Despeckling elimina ese ruido e intenta suavizar la imagen.

Remoción de línea
Identifica todas las líneas y marcas que probablemente no sean caracteres, luego las elimina para que el proceso de OCR real no se confunda. Es especialmente importante al escanear documentos con tablas y cuadros.

Zonificación
Separa la imagen en distintos fragmentos de texto, como la identificación de columnas en documentos de varias columnas.

Zonificación para el reconocimiento óptico de caracteres
Haber de imagen: WayneRay /Wikimedia

Paso 2: Procesando la imagen

Lo primero es lo primero, el proceso OCR intenta establecer la línea base para cada línea de texto en la imagen (o si se dividió en zonas en el preprocesamiento, funcionará a través de cada zona de una en una). Cada línea de caracteres identificada se maneja uno por uno.

Para cada línea de caracteres, el software OCR identifica el espacio entre los caracteres al buscar líneas verticales de píxeles que no son de texto (lo que debería ser obvio con la binarización adecuada). Cada fragmento de píxeles entre estas líneas que no son de texto está marcado como un "token" que representa un carácter. Por lo tanto, este paso se llama tokenización.

Procesamiento de imagen para reconocimiento óptico de caracteres

Una vez que todos los caracteres potenciales de la imagen se tokenizan, el software OCR puede usar dos técnicas diferentes para identificar qué caracteres son en realidad esos tokens:

Reconocimiento de patrones
Cada ficha se compara píxel a píxel con un conjunto completo de glifos conocidos, incluidos números, signos de puntuación y otros símbolos especiales, y se elige la coincidencia más cercana. Esta técnica también se conoce como coincidencia matricial.

Hay varios inconvenientes aquí. Primero, las fichas y los glifos deben ser de un tamaño similar o, de lo contrario, ninguno de ellos coincidirá. En segundo lugar, los tokens deben estar en una fuente similar a los glifos, lo que descarta la escritura a mano. Pero si se conoce la fuente del token, el reconocimiento de patrones puede ser rápido y preciso.

Extracción de características
Cada ficha se compara con diferentes reglas que describen qué tipo de personaje podría ser. Por ejemplo, es probable que dos líneas verticales de igual altura conectadas por una sola línea horizontal sean mayúsculas H.

Esta técnica es útil porque no está limitada a ciertas fuentes o tamaños. También puede ser más matizado al reconocer las sutiles diferencias entre una I mayúscula, una L minúscula y el número 1. ¿La baja? Programar las reglas es mucho más complejo que simplemente comparar los píxeles en un token con los píxeles en un glifo.

Paso 3: procesamiento posterior de la imagen

Una vez que finaliza la coincidencia de tokens, el software OCR podría simplemente llamarlo un día y presentarle los resultados. Pero, por lo general, se necesita un poco más de falsificación para asegurarse de que no está poniendo los ojos en blanco ante los resultados incoherentes.

Restricción léxica
Todas las palabras se comparan con un léxico de palabras aprobadas, y las que no coinciden se reemplazan con la palabra más adecuada. Un diccionario es un ejemplo de un léxico. Esto puede ayudar a corregir palabras con caracteres erróneos, como "espina" en lugar de "th0rn".

Optimizaciones específicas de la aplicación
Cuando el OCR se usa en entornos específicos, como documentos médicos o legales, se puede usar un tipo especial de OCR especialmente diseñado para ese entorno. En estos casos, el software OCR puede buscar ecuaciones matemáticas, términos específicos de la industria, etc.

Lenguaje natural
Esta técnica avanzada corrige oraciones mediante el uso de un modelo de lenguaje que describe la probabilidad de que ciertas palabras sean seguidas por otras palabras. Es similar a la tecnología que predice qué palabra desea escribir a continuación en un teclado móvil.

Cuando se hace bien, esto puede resultar en un texto que es notablemente legible.

Herramientas de reconocimiento óptico de caracteres recomendadas

Ahora que sabe cómo funciona OCR, debería ser fácil ver que no todas las herramientas de OCR son iguales. La precisión de sus resultados dependerá en gran medida de qué tan bien el software implemente las diversas técnicas de OCR discutidas en este artículo.

Recomendamos OneNote para esto, que es solo una razón por qué vence a Evernote para tomar notas Evernote vs. OneNote: ¿Qué aplicación para tomar notas es la adecuada para usted?Evernote y OneNote son increíbles aplicaciones para tomar notas. Es difícil elegir entre los dos. Comparamos todo, desde la interfaz hasta la organización de notas para ayudarlo a elegir. Que funciona mejor para usted? Lee mas . Si está dispuesto a pagar por una solución premium, considere OmniPage. Mira nuestro comparación de OneNote vs. OmniPage para OCR Gratis vs. Software de OCR pagado: Microsoft OneNote y Nuance OmniPage comparadosEl software del escáner OCR le permite convertir texto en imágenes o PDF en documentos de texto editables. ¿Es una herramienta de OCR gratuita como OneNote lo suficientemente buena? ¡Vamos a averiguar! Lee mas . Para documentos móviles, querrás consultar estos Aplicaciones de OCR para dispositivos Android Las 6 mejores aplicaciones de Android OCR para extraer texto de imágenes¿Necesita digitalizar cualquier texto impreso para poder mantener una copia electrónica? Si es así, todo lo que necesita es una herramienta de reconocimiento óptico de caracteres (OCR). Lee mas .

¿Cómo se usa OCR? ¿Tiene alguna herramienta de OCR favorita que no mencionamos? ¡Háganos saber en los comentarios a continuación!

Joel Lee tiene un B.S. en informática y más de seis años de experiencia profesional en redacción. Es el editor en jefe de MakeUseOf.