Saltar al contenido
También puedes escuchar este post en audio, ¡dale al play!

 

  • La digitalización masiva de documentos en el sector público y privado supuso un gran esfuerzo, tanto de recursos como de personas.  

  • El paso del documento en formato físico al formato de documento digitalizado cambió la manera de relacionarnos con los documentos de una forma definitiva. 

20 años después del inicio de la digitalización de documentos, estos siguen siendo la base de muchos procedimientos en las organizaciones y en muchas ocasiones, el vehículo de intercambio de información entre diferentes partes (clientes y proveedores, ciudadanos e instituciones públicas, empresas y empleados...). El soporte de estos documentos ha cambiado progresivamente, en la actualidad más de un 80% de los documentos son digitales desde su creación y el resto, son escaneados o incluso fotografiados y enviados ya de origen en formato digital.

En muchas ocasiones los documentos no están normalizados, es decir no tienen una estructura definida y la información relevante no se encuentra en el mismo lugar ni con el mismo formato.

Con este escenario, es complicado para las organizaciones extraer información cualitativa, de forma rápida y automática. Los OCRs no sirven en la totalidad de los datos y en muchas ocasiones se emplean personas para leer y extraer de forma manual de los documentos, la información y datos necesarios que necesita la organización de destino. Podemos pensar que un documento como tal ofrece muy poco valor analítico, poco más podemos hacer a priori que enumerarlos y como mucho clasificarlos y este caso no es sencillo.

El verdadero valor de un documento es la información que recoge y la clave para las organizaciones es la implementación de un sistema que permita extraer esa información desde el momento en el que el documento aparece en su proceso de forma rápida, confiable y que permita incluso automatizar ciertos pasos del proceso. 

Babel cuenta con una solución orientada a cubrir esta necesidad, de rápida implementación basada en servicios cognitivos.


Los servicios cognitivos son un conjunto de servicios desarrollados por los principales proveedores de Cloud (Microsoft, AWS, Google). Estos servicios implementan Inteligencia Artificial y una vez desarrollados, son expuestos como servicios para poder ser utilizados y agilizar de forma muy significativa el proceso de desarrollo e implementación de un modelo de IA. Las ventajas del uso de servicios cognitivos es el de tener modelos preentrenados con una efectividad muy alta. 

Estos servicios se reentrenan para mantener y mejorar su eficacia, de forma continua y transparente para los usuarios finales que solo se tienen que ocupar de introducirlos en sus procesos de tramitación. Para la gestión de documentos, se basan en visión por computador y utilizan Procesamiento de lenguaje natural, una de las ramas de la Inteligencia Artificial. Esta combinación permite analizar cada documento desde una perspectiva analítica determinando cada una de las dianas de información y extrayendo dicha información del documento. 

Desde el punto de vista funcional, para cada documento se definen unas dianas de información que podemos definir como aquellos datos que son necesarios extraer de un documento. Por ejemplo, en una factura, las dianas de información serían el emisor, receptor, artículos, importe...

Es importante destacar que el sistema permite que los diferentes documentos, aún siendo del mismo tipo, tengan estructuras totalmente diferentes (en el caso de la factura es especialmente sencillo de observar, cada compañía estructura su factura con un formato “libre”).

Una vez definidas estas dianas de información por cada tipo documental, Babel presenta su solución basada en el siguiente esquema: 
 


El proceso de implementación de una solución basada en servicios cognitivos se define en el siguiente proceso: 

  • Fase 0. Entendimiento del proceso y de la necesidad de extracción.
  • Fase 1. Examen de la tipología documental, campos a extraer y destino de los campos. 
  • Fase 2. Selección e implementación de los servicios cognitivos. 
  • Fase 3. Soporte y mantenimiento evolutivo. 


Para cada documento, es necesario identificar los datos o conceptos a extraer. Los servicios cognitivos devuelven diferentes versiones de extracción textual, las cuales deben ser trianguladas y analizadas a nivel de ratio de precisión de lectura. Las lecturas se consolidan, se preparan en un formato adecuado para facilitar su integración. 
 



 
Carlos  Ortiz
Carlos Ortiz

Responsable Línea de Servicio Big Data y Analytics en BABEL.

logo linkedin compartir en Linkedin Contacto

Otros artículos destacados