OCR: Reconocimiento Óptico de Caracteres

OCR: Reconocimiento Óptico de Caracteres

Monocromo
5th noviembre, 2013

Un escáner es una herramienta que lee y obtiene imágenes. Aunque al escanear un documento el resultado que obtenemos sea a simple vista un archivo en PDF, por ejemplo, lo más usual es que  aunque veas texto en él en realidad se trate de una imagen incrustada en un documento PDF. No podrías buscar o seleccionar texto en ella porque en realidad el programa no reconoce su contenido como texto.

El OCR (Optical Caracter Recognition / Reconocimiento Óptico de Caracteres, ROC) permite procesar esas imágenes para convertirlas en texto de manera que un lector de PDFs te permita realizar búsquedas en él o seleccionar texto, o que un programa como el Bloc de notas de Windows o un procesador de texto (Microsoft Word, Openoffice.org Writer, etc) puedan abrirlo, manejarlo y editarlo.

La mayoría de escáneres y equipos multifunción vienen con un conjunto de programas o suite que permite usar el escaner desde el ordenador y gestionar lo que escaneemos. Pero no todos cuentan desde el principio con la capacidad para reconocer texto en imágenes si no les proveemos de un motor OCR, que es como se llaman los programas, plug-ins, módulos y añadidos cuya función es dotar a otros programas de capacidad para realizar la tarea de traducir imágenes a texto. Algunas soluciones de escaneado cuentan desde el principio con dicho añadido, pero otras (generalmente suites de gestión documental gratuitas o algunas “regaladas” al comprar un equipo de escaneo) no vienen con este módulo que les permite reconocer textos en imágenes porque casi la totalidad de los motores OCR están sujetos a licencias propietarias y son de pago.

Tesseract es el motor OCR que varios programas libres y/o gratuitos como FreeOCR usan. SimpleOCR, gratuito y con un motor libre de regalías es otra alternativa. Incluso existen webs que ofrecen gratuitamente con o sin limitaciones un servicio de reconocimiento de caracteres, devolviéndote un documento de texto cuando les proporcionas una imagen.

Aunque esta tecnología ha mejorado mucho en los últimos años, aún muchos motores tienen limitaciones dadas por la resolución, la claridad y el contraste de la imagen, o por su propia capacidad a la hora de reconocer caracteres o patrones inesperados en la imagen a analizar. Para un usuario medio una exactitud del 100% es aún una quimera. Iniciativas como reCAPTCHA buscan mejorar la tecnología OCR, en este caso concreto ayudando a Google a digitalizar libros. Se trata de un servicio anti-spam basado tests CAPTCHA. Mostrar texto distorsionado que un humano puede reconocer pero un bot no, para impedir que estos últimos accedan a ciertas funciones de páginas web como enviar comentarios, rellenar formularios de contacto, etc.

 

Como funciona.

El esquema básico del funcionamiento del OCR consta de cuatro etapas:

  • 1. Binarización

La mayoría algoritmos OCR necesitan una imagen binaria (dos colores) para trabajar, por lo tanto se convierten las imágenes en escala de grises o color en una imagen en blanco y negro de forma que queden claramente delimitados los contornos de los caracteres y símbolos que contiene la imagen.

  • 2. Fragmentación o segmentación de la imagen

Este es el proceso más difícil y necesario para el posterior reconocimiento de caracteres. La segmentación de una imagen implica la detección de los contornos o regiones de la imagen. Permite la descomposición de un texto en diferentes entidades lógicas que han de ser suficientemente invariables para ser independientes del escritor, y suficientemente significativas para su reconocimiento.

  • 3. Adelgazamiento de las componentes

Una vez aisladas las componentes de la imagen, fruto de la fragmentación del paso anterior se les aplica un proceso de adelgazamiento a cada una. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipología, simplificando su forma.

  • 4. Comparación con patrones

Se comparan los caracteres obtenidos con unos teóricos (patrones) almacenados en una base de datos hasta encontrar la máxima coincidencia.

 

Uso.

Desde la aparición del OCR han sido muchos los servicios que lo emplean para aumentar su rendimiento y otros se han basado completamente en esta tecnología. Algunas de las más destacables aplicaciones que lo utilizan son:

  • Lectura de matrículas, empleados en radares de tráfico o controles de acceso.

OCR matrícula

  • Indexación en bases de datos. Una de las formas más corrientes de buscar imágenes es utilizar los metadatos introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes mediante el texto que aparecen en ellas extrayéndolo y utilizándolo como metadato utilizable en las búsquedas.
  • OCR zonal, usado para digitalizar de forma masiva grandes cantidades de documentos estructurados como facturas, nóminas, albaranes, pólizas, justificantes bancarios, etc.
  • Apps para reconocer textos o simbolos con la cámara de un dispositivo móvil, como lectores de códigos QR, programas para escanear documentos o traductores automáticos.

Google Translate camera

 

El OCR es una tecnología cotidiana presente en multitud de entornos a la que todavia le queda mucho margen de mejora.

OCR: Reconocimiento Óptico de Caracteres
¡Valora este post!
  • Archivos

  • Top Posts