duplicados puede ser algo frustrante ver como auditor de datos. A menudo, una pantalla de datos front-end no puede atrapar ciertos tipos de duplicados , por ejemplo , en una tabla de direcciones , 123 Main Street y la 123 Main St. puede aparecer como dos direcciones distintas , cuando en realidad son la misma dirección < . br>
Esto se puede resolver utilizando uno de dos métodos : Los datos de la eliminación o corrección de datos . La eliminación de datos significaría eliminar todas menos una instancia de un conjunto de duplicados , mientras que la corrección de datos sería actualizar todas las instancias de la duplicación de un solo valor acordado . Los paquetes de software disponibles que utiliza un algoritmo para identificar valores atípicos basados en desviaciones estándar , grupos u otros criterios , a continuación, los valores extremos son evaluados por un experto en la materia que determina el destino de la entrada inesperada .
Extract , Transform , Load
extraer, transformar , cargar, o ETF , es un método comúnmente utilizado para mover y limpiar los datos . Mientras no se produzca la limpieza manual, hay tareas automatizadas en la fase de traducción. Por ejemplo , si el origen de las tiendas de la tabla " M " y "F " y la tabla de destino almacena "macho " y "hembra ", un script se ejecuta para traducir los datos a los nuevos valores .
Vez que los datos se limpia y se valida , se puede importar a la tabla de destino . También puede ser importado a través de los datos antiguos para escribir sobre los datos . Esto funciona bien cuando una columna completa de los datos en una tabla necesita ser cambiado .
Actualización de los sistemas de legado
La actualización de un sistema heredado típicamente consiste en mover los datos a una posición intermedia , o área de ensayo , en el que a continuación se somete a un sistema automatizado , así como datos manuales limpieza ronda. Esto se hace para evitar cometer errores irreversibles a los datos existentes antes de importarlos en el nuevo sistema. Cabe señalar que los datos antiguos no deben ser actualizado , de acuerdo a la información - management.com , con el fin de evitar el mantenimiento de dos conjuntos de datos separados . Cabe retiró lugar y el nuevo sistema debe ser el único en uso en el futuro.