Según un estudio realizado por Hocelot (compañía de Data Science): ‘’El Dirty Data lo configuran los datos incorrectos, incompletos, desactualizados o duplicados que se encuentran en las bases de datos de las empresas. Más de la mitad de los usuarios facilitan datos falsos para las bases de datos de las empresas’’.
Estamos constantemente recibiendo peticiones de información a través de internet. Nuestros gustos, intereses, números de cuenta o datos de contacto quedan almacenados. Ha llegado un momento en el que no queremos revelar lo que somos, así que preferimos mentir o no aportar todos los datos que se nos piden. Porque toda la información que publiquemos deja huella.
Según la Oficina de Seguridad del Internauta: el 33% de los usuarios no facilita ningún dato; mientras que el 41%, únicamente el correo electrónico, pensando que a través del registro obtendrán algún tipo de premio o servicio gratuito.
El caso es que esta falta de información o la mentira en el registro, que parece algo inofensivo, acaba suponiendo más de 1.600 millones al año solo en España, y una gran pérdida tanto de tiempo como de dinero para todos.
El caso es que el usuario desconfía en la política de protección de datos, se cansa al rellenar un formulario y lo deja inacabado, miente en su fecha de nacimiento o ubicación porque está cansado del spam… Y este Dirty Data imposibilita que los resultados del Data Science sea eficiente.
Problemas que acarrea
Al final, debido a que la mayoría de personas no aporta información veraz, las empresas están llenas de unas bases de datos que sólo poseen información que no es correcta, provocando así que no se pueda trabajar con datos óptimos, sino con Dirty Data. Las empresas no pueden utilizar los beneficios del Big Data o el Business Intelligence si no conocen verdaderamente a sus usuarios o consumidores.
Con estos antecedentes, y según un informe de SAP, disminuye la eficiencia de las empresas y su productividad hasta un 20%.
El Dirty Data le cuesta a las empresas estadounidenses cerca de 600.000 millones de dólares cada año.
¿Cómo podemos prevenirlo?
Antes que nada, comprobar que todos los datos son válidos al crear una nueva base de datos, porque si no perderíamos tiempo y dinero. Por supuesto, realizar periódicamente una limpieza de datos y, sobre todo, trabajar con tecnología específica y personal cualificado.
De hecho, las empresas demandan cada vez más perfiles profesionales cualificados en Big Data ( para tener a raya, entre otras cosas, el Dirty Data.
Para poder erradicarlo se necesita tiempo, recursos y esfuerzo. No es un camino fácil. Es más, aún no se conocen con exactitud las herramientas idóneas para ello, pero es necesario que todos pongamos de nuestra parte para poder solucionarlo.