Mearse en la bañera

Son un buen número de Administraciones Publicas de todos los niveles las que actualmente están inmersas en proyectos de calidad. La ley 11/2007 parece actuar de catalizador y ha acelerado la reingeniería de procesos que está a la orden del día en la Administración. Participo en algunos de estos proyectos y estoy contento de que por fin se muestre interés por la calidad de una manera tan generalizada, pero he notado cierta carencia que quisiera poner de manifiesto.

La calidad es un ciclo, en eso creo que estamos todos de acuerdo, pero la seguridad también es una cadena y como suele decirse, siempre existe el eslabón más débil que, si se rompe, dará al traste con la calidad. ¿Y cuál es ese eslabón más débil del que hablo?. Pues se trata de los datos.

Normalmente se considera que el éxito de un buen Sistema de Información se basa en la excelencia técnica, dado que las limitaciones se ven como algo esencialmente técnico. Sin embargo, mientras que algunos problemas sí son técnicos, un buen número de ellos se deben a la organización y a la dirección de la empresa, y otra parte muy importante de los problemas que surgen, principalmente en la explotación de los Sistemas de Información, son imputables en gran medida a la falta de calidad de los datos que incorporan, almacenan y procesan.

Los datos y por ende la información, son vitales para las Organizaciones, ya que no sólo sirven para su gestión y control (gestión, facturación, contabilidad, nóminas,…), su importancia es tal que un análisis de toda la información disponible en una Organización es capaz de aportar el conocimiento necesario que permita a los directivos tomar decisiones para crear o perfeccionar su estrategia empresarial. Tanto es así que cada vez son más las empresas que utilizan como “materia prima” los propios datos, tanto en el sector privado como en el público. Por eso, conscientes de la importancia que para las Organizaciones tiene la información, éstas guardan celosamente sus datos e implantan estrictas medidas de seguridad y sofisticados mecanismos de protección que permitan recuperar los datos en el caso de pérdidas, fortuitas o provocadas.

Sin embargo, a pesar de su reconocida importancia, con frecuencia los datos son el gran olvidado y se omite por completo el análisis de este elemento desde el punto de vista de su calidad. Es indiscutible que el origen y la razón de ser de los SSII están en los datos, por eso es muy importante que a la hora de introducirlos en los archivos y Bases de Datos sean convenientemente verificados y validados, ya que datos erróneos pueden ocasionar decisiones desafortunadas. Esto sería lo ideal, pero, ¿qué se puede hacer cuando la información de que se dispone no es lo suficientemente buena?; ¿qué se puede hacer cuando por más esfuerzo y tiempo que se dedique a mejorarlos y a depurarlos no se consiga un mínimo de calidad en los datos porque el flujo de entrada sigue siendo deficiente?; ¿qué se puede hacer cuando faltan datos que se podrían considerar importantes?. La respuesta más lógica a estos interrogantes sería no introducir ningún dato defectuoso, incompleto o erróneo en el sistema, bajo ningún concepto, hasta que hayan sido totalmente corregidos, sobre todo si no se desea que se cumpla ese aforismo informático que afirma que «si entra basura, sale basura» (GIGO). Pero esto no siempre es posible. Hay determinadas circunstancias que obligan a introducir datos en los sistemas aún a sabiendas de que son defectuosos. Esto se produce principalmente cuando cada uno de los registros contenido en los ficheros de entrada representa un valor económico que, obviamente, hay que contabilizar.

Y a pesar de que este serio problema está aun sin resolver, se siguen redefiniendo procedimientos los cuales una vez convertidos en expedientes automatizados tendrán que funcionar con «datos basura», y por tanto el resultado pretendido al redefinir los procesos habrá perdido gran parte de la calidad deseada.

Por poner un símil escatológico es como «mearse en la bañera«. Imaginemos una base de datos como una bañera llena de agua limpia que son los datos. Volcar datos defectuosos en la bases de datos sería como mearse en el agua limpia de la bañera, por pequeño que haya sido el chorro la orina contaminará toda el agua y nadie se bañaría a gusto en esa bañera.

Nadie piense que con este planteamiento se quiere presentar una situación poco menos que irreal, porque parece que no tiene sentido que existan empresas que trabajan con datos tan malos. Sin embargo este problema existe desde el momento en que existen Organizaciones que no son propietarias de los datos que manejan, sino que son depositarias de los mismos, y la Administración es el paradigma de ello. Muchas Bases de datos de las Administraciones Públicas suelen nutrirse de diferentes fuentes de información que con frecuencia no pueden alterar, ni siquiera para mejorarla. Otras Administraciones, la banca, empresas privadas… pueden ser proveedoras de datos para los organismos públicos, cada una de ella proporciona datos con diferentes codificaciones, abreviaturas y acrónimos; transfiriendo errores de mecanografiado; con diferentes definiciones de los tipos de datos que maneja; con distintos formatos de fechas y de monedas; con errores de transcripciones fonéticas… Y con el paso del tiempo acaba siendo una auténtica torre de babel de la que es necesario extraer información válida.

Un ejemplo claro de lo que expongo se produce en las empresas públicas de recaudacion provincial, las cuales se nutren de datos de los propios Ayuntamientos, de la Dirección General de Tráfico, de la Tesorería de la Seguridad Social, de los Organismos Catastrales, etc. Siguiendo con el símil de la bañera, cada una de estas fuentes de información con formatos y criterios dispares serían como un chorro de orina sobre la base de datos de nuestra bañera.

Ojalá algún día podamos disponer de datos fiables y de calidad, pero mientras tanto la solución, al menos en parte, consiste en poner en marcha mecanismos paliativos que minimicen el impacto que la basura, en forma de datos defectuosos, puede producir en el S.I.

Y les aseguro que esto que les digo es perfectamente posible.

4 comentarios en «Mearse en la bañera»

  1. Hola Santiago.

    No pensaba hacer un continuará, pero tampoco puedo dejar de responder a tus inquietudes, así que procuraré satisfacer tus dudas.

    Existen manera de recuperar información valiosa de las Bases de Datos con información defectuosa, y es posible mediante el uso de diversos algoritmos muy variados. Por ejemplo.

    1.- El algoritmo de Knut permite encontrar información en una BBDD cuyos datos contengan errores foneticos, ya que la bússqueda se hace por la «forma en como suenan las palabras» en lugar en la forma en como están escritas. Es un algoritmo muy antiguo (primera mitad del s XX) y se usó por vez primera para hacer un censo en Nueva York. Las principales BBDD incorporan este algorito en forma de una función denominada SOUNDEX. El problema es que pretende una aproximación fonética del lenguaje inglés. No es dificil hacer uno para el castellano.

    2.-El algoritmo de Levensthein, el cual permite conocer la distancia entre dos cadenas de caracteres en cuanto a operaciones hay que hacer para paar de una a otra. Por ejemplo, de «perro» a «pero» la distancia es «1» porque es necesario borrar un carácter para pasar del primero al segundo. Con este algoritmo podemos ver el «parecido» entre dos cadenass de caracteres. Es de propósito general, es decir, sirve para cualquier tipo de errores, pero mecanográficos y de ortografía principalmente.

    3.-Los algoritmos n-grams (bigrams, trigrams…) también permiten conocer el parecido entre cadenas de caracteres.

    4.-El SIMILAREX, es para errores cometidos en procesos de escaneo.

    Y hay muchos más, pero mi memoria no está para exigirle mucho.

    Como dije, son algoritmos que permiten obtener información buena de la mala, pero también se pueden usar para depurar datos a la entrada de los mismos, tanto si es de forma manual o mediante el volcado automático de archivo.

    Puedo assegurarte que son mucho más eficaces de lo que pueda parecer, pero debo advertirte que tienen un gran coste computacional.

    Espero haberte servido de ayuda.

    Saludos

  2. La última frase ha sonado a «Continuará en el próximo capítulo…». Y eso espero, porque es un problema que también me he encontrado en varias ocasiones, y al que no veo solución: pasas meses puliendo procesos, herramientas, formando y motivando a personas… para encontrarte luego con que tu estupendo sistema no maneja más que basura por culpa de la calidad del dato.

    ¿Cuáles son los mecanismos que se podrían usar? Mecanismos técnicos que yo haya usado son procesos de reconciliación, que avisan de inconsistencias. Pero siempre acabas necesitando una mano humana que revise lo detectado y tome decisiones.

    Y cuando se trata, como dices, de datos heredados de otros organismos, nadie está dispuesto a meterles mano: «ah, no, yo no puedo tocar esos datos que no son míos». Como mucho, se pueden corregir errores tipográficos, duplicados, y poner disciplina en la introducción de nuevos datos. Pero eso no limpia el agua de la bañera…

    Un saludo

Los comentarios están cerrados