Ir al contenido principal

Datos de investigación

Qué son los datos de investigación, elaborar un Plan de Gestión de Datos, repositorios de datos, obligaciones, etc.

Estructura de los datos

Cuando se diseñan estructuras de datos tabulares es recomendable estructurar los datos en formato TIDY (vertical) en lugar de horizontal.

Existen dos formas de estructurar los datos:

  • Datos No TIDY (horizontal): Cada valor es una columna. Se extienden a la derecha. Por ejemplo, cada año, o cada visita, o cada categoría que analicemos, es una columna, por lo cual contaría como si fuese una variable.
  • Datos TIDY (vertical): Al contrario, cada valor es una fila. Por lo tanto, no tendríamos una columna para cada año, cada visita o cada categoría, sino una sola. El año sería una sola variable o columna, por ejemplo.

De cara a una buena práctica de gestión de datos, lo recomendado para el análisis y también para su preservación a largo plazo es estructurarlos en formato Tidy (vertical). Esto facilita la recuperación de los metadatos asociados a los nombres de las variables de forma adecuada.

Calidad de los datos

Es muy importante controlar la calidad de los datos durante el proyecto, de cara a su análisis, a la calidad de los resultados y para su depósito en algún repositorio y que puedan ser reutilizados.

Los datos pueden tener errores:

  • Valores ausentes (campos numéricos que usan un valor distinto, campos de texto NULL o NA, etiquetas o banderas de datos para cualificar las celdas vacías, tratamiento adecuado de los NA)
  • Duplicados
  • Datos contaminados (cuando se utilizan datos incorrectos para el entrenamiento. Por ejemplo, datos que no se ajustan al propósito del modelo o datos que ya están reservados para otras tareas de desarrollo, como pruebas y evaluación)
  • No extrapolables
  • Valores no esperados

Es necesario aplicar un plan de limpieza de datos. Más información:

  • Revisar filas y columnas (#, formato...) 
  • Remover casos duplicados
  • Separar columnas que fusionan más de una variable
  • Anonimizar datos
  • Renombrar variables acordes al diccionario de datos
  • Corregir tipos de variables
  • Chequear los códigos de las variables
  • Revisar y tratar los valores ausentes
  • Revisar y tratar los valores extremos
  • Documentar todos los cambios