Biblioguías: Datos de investigación: Organizar

Organización

Hay que organizar los datos en ficheros y carpetas y documentarlos. No solo hay que recolectar y coleccionar datos, sino organizarlos.
Importa tanto la información descriptiva de los datos como los procedimientos.
Todos los materiales relevantes deben ser organizados en carpetas:

Invitación a participar en una investigación
Hoja de los datos de los participantes
Consentimiento informado
Diseño de la entrevista
Descripción de la codificación a utilizar en la transcripción
Descripción del procedimiento de anonimización
Datasets
Códigos de variables
Información descriptiva del proyecto

Hay que organizar las carpetas de manera lógica y sistemática, con unos criterios:

Organización
Contexto
Tipologías
Conviene separar los trabajos finalizados de los que están en curso
Los eventos individuales deben ser estructurados en ficheros individuales
Luego estos ficheros se organizan en carpetas similares

Infografía del Grup de Treball de Suport a la Recerca del Consorci de Serveis Universitaris de Catalunya:

Formatos

Un formato de archivo es una forma de codificar información dentro de un archivo informático. Un programa o aplicación debe poder reconocer el formato de archivo para poder acceder a los datos que contiene. Es importante contar con formatos estándar y a poder ser abiertos, que aseguren el acceso a largo plazo a los datos. Es importante contar con formatos estándar y a poder ser abiertos, que aseguren el acceso a largo plazo a los datos. (Milanés y Delgado "La gestión de datos de investigación en el contexto de la Ciencia Abierta")

Formatos más comunes:

Text - ASCII, Word, PDF
Numéricos - ASCII, Excel, Access, SPSS, STATA
Multimedia - jpeg, tiff, dicom, mpeg, quicktime, Wav
Espacial - geotiff, KLM, KMZ
Modelos - 3D, statistical

Elección de formato

Hay aspectos importantes a tener en cuenta al elegir un formato de archivo para datos digitales y la elección debe planificarse al comienzo del ciclo de investigación para garantizar que el formato se adapte a todos los propósitos que puedan ser necesarios.

Los puntos a considerar son:

¿Qué formato es el más adecuado para la creación de datos?
¿Qué formato es el más adecuado para los análisis de datos y otros usos planificados?
¿Qué formato es el más adecuado para la sostenibilidad a largo plazo y el intercambio de datos?
¿Debería elegir un formato abierto o propietario?
¿El formato debe tener pérdida o no?
¿Es el formato adecuado para la conversión?

El formato y el software en que se crean los datos de investigación suelen depender de cómo los investigadores eligen recopilar y analizar los datos, del hardware utilizado o de la disponibilidad del software. También puede estar determinado por las normas y costumbres específicas de cada disciplina. Por ejemplo:

Los formatos de datos de imagen, audio y vídeo pueden depender del tipo de cámara o equipo de grabación utilizado. A menos que se graben inicialmente datos de alta calidad, no es posible actualizarlos posteriormente. Es recomendable recopilar datos con la máxima fidelidad, ya que siempre se pueden degradar y reducir de tamaño, pero no al revés. Además, considere qué formato sería el más adecuado en vista de todos los usos y conversiones planificados.
Los datos numéricos suelen almacenarse en hojas de cálculo o bases de datos, donde los casos o registros se grafican frente a variables o mediciones. Para las encuestas de ciencias sociales, el formato de archivo estándar suele ser SPSS debido a su capacidad de análisis estadístico. En la investigación ecológica, CSV o MS Excel son los formatos de entrada de datos estándar para muchos programas analíticos.
Los datos de investigación cualitativa, como las entrevistas, pueden recopilarse inicialmente como grabaciones de audio digitales, como en formato WAV o MP3, y luego transcribirse como archivos de texto, como en MS Word. Estos datos se analizan frecuentemente mediante software de análisis de datos cualitativos asistido por computadora (CAQDAS), como NVivo o ATLAS.ti, donde los archivos de texto se importan a la base de datos CAQDAS.

Formatos para accesibilidad a largo plazo

Al considerar la accesibilidad y usabilidad a largo plazo de los datos de investigación, se necesitan formatos de archivos digitales y software sostenibles. Muchos formatos corren el riesgo de quedar obsoletos en el futuro, lo que imposibilitaría la lectura e interpretación de los datos.

A pesar de la compatibilidad con versiones anteriores de muchos paquetes de software para importar datos creados en versiones de software anteriores y la interoperabilidad entre programas de software populares que compiten entre sí, la opción más segura para garantizar el acceso a los datos a largo plazo es convertir los datos a formatos estándar o abiertos.

La mayoría de los paquetes de software no sólo pueden interpretarlos, sino que también son adecuados para el intercambio y la transformación de datos y es probable que tengan más posibilidades de ser reutilizados en el futuro.

Formatos propietarios o abiertos

Los formatos propietarios pertenecen a una empresa que reivindica los derechos de propiedad intelectual sobre el uso del software mediante la concesión de licencias. Los formatos estándar incluyen los productos de software propietarios de Microsoft Office, ampliamente utilizados (MS Word, formato de texto enriquecido y MS Excel), o el popular formato SPSS. Es probable que estos tengan una sostenibilidad a largo plazo debido a su amplio uso.
Ejemplos de formatos de archivos abiertos son PDF/A, CSV, TIFF, OpenDocument Format (ODF), ASCII, formato delimitado por tabulaciones, valores separados por comas y XML.
Los formatos de archivo también pueden ser con o sin pérdida. Los formatos con pérdida ahorran espacio al eliminar información detallada que se considera irrelevante. Por ejemplo, el formato JPEG con pérdida elimina los detalles finos de las imágenes, mientras que el formato TIFF sin pérdida conserva todos los detalles. Además, editar y guardar repetidamente archivos en formato con pérdida conduce a una mayor pérdida de información.

Si bien los investigadores utilizarán los formatos de datos y el software más adecuados según los análisis planificados durante su investigación, una vez finalizado el análisis y preparados para su almacenamiento a largo plazo, se debe considerar su conversión. El uso de formatos abiertos, estándar, intercambiables y de mayor duración evita la imposibilidad de utilizar los datos en el futuro. Esto también se recomienda para las copias de seguridad. Para la preservación digital a largo plazo, los centros de datos y archivos conservan los datos en formatos abiertos y estándar.

Formatos de archivo recomendados por el UK Data Service

Enlazamos una tabla elaborada por el Servicio de Datos de Reino Unido que orienta sobre los formatos de archivos recomendados y aceptados para compartir, reutilizar y preservar datos.

Es posible que se necesite la conversión de los archivos de datos a un formato de archivo de preservación.

Fuente : UK Data Service

Control de versiones

Es importante garantizar que las diferentes copias o versiones de archivos, los archivos almacenados en diferentes formatos o ubicaciones y la información que se referencia de forma cruzada entre archivos estén sujetos al control de versiones.

Estrategia de control de versiones
Puede resultar difícil localizar la versión correcta o saber cómo difieren las versiones después de un tiempo. Una estrategia de control de versiones adecuada depende de si los archivos son utilizados por uno o varios usuarios, en una o varias ubicaciones, y de si es necesario sincronizar las versiones entre usuarios o ubicaciones, de modo que si se modifica la información en una ubicación, también se actualice la información relacionada en las demás.

Acciones recomendadas

Decidir cuántas versiones de un archivo conservar, qué versiones conservar, durante cuánto tiempo y cómo organizar las versiones.
Identificar las versiones importantes que se deben mantener, por ejemplo, versiones principales en lugar de versiones secundarias (mantenga la versión 02-00 pero no la 02-01).
Identificar de forma única diferentes versiones de archivos utilizando una convención de nombres sistemática, como números de versión o fechas.
Registrar los cambios realizados en un archivo cuando se crea una nueva versión.
Registrar las relaciones entre elementos cuando sea necesario, por ejemplo, entre el código y el archivo de datos en el que se ejecuta; entre el archivo de datos y la documentación o metadatos relacionados; o entre varios archivos.
Realizar un seguimiento de la ubicación de los archivos si están almacenados en una variedad de ubicaciones.
Sincronizar periódicamente los archivos en diferentes ubicaciones, como por ejemplo utilizando el software MS SyncToy.
Identificar una única ubicación para el almacenamiento de versiones maestras y de hitos.

Sistema del control de versiones

La fecha registrada en el nombre del archivo o dentro del archivo, por ejemplo, HealthTest-2008-04-06.
Numeración de versiones en el nombre del archivo, por ejemplo, HealthTest-00-02 o HealthTest_v2.
Un historial de archivos, una tabla de control de versiones o notas incluidas dentro de un archivo, donde se registran versiones, fechas, autores y detalles de los cambios realizados al archivo.
Facilidades de control de versiones dentro del software utilizado.
Usando software de control de versiones, por ejemplo Subversion.
Utilizando servicios de intercambio de archivos, como Dropbox o Google Docs.
Controlar los derechos de edición de archivos.
Fusión manual de entradas o ediciones de múltiples usuarios.

La numeración de versiones en los nombres de archivos puede ser mediante numeración discreta o continua dependiendo de las revisiones menores o mayores.

Ejemplo:

Nombre del archivo	Cambios en el archivo
Entrevista programada_1.0	Documento original
Entrevista programada_1.1	Se realizaron revisiones menores
Entrevista programada_1.2	Otras revisiones menores
Entrevista programada_2.0	Cambios sustanciales

Algunas recomendaciones

Se deben registrar los cambios en la data, no importa lo pequeños o "insignificantes" que parezcan en ese momento.
Usar autobackup para esto, en lugar de guardar y archivar múltiples versiones.
Hay que asegurarse siempre de mantener la copia original (Raw Data).

Fuente : UK Data Service

Software para control de versiones. El control puede ser manual o automático.

Wikis y Google Docs proveen rastreo de versiones automático.

Apache Subversion
Es un sistema de control de versiones de código abierto fundado en 2000 por CollabNet, Inc.
Open Science Framwork (OSF)
Es una herramienta de gestión de proyectos de código abierto y gratuita, así como de almacenamiento y gestión de datos de investigación.

Nomenclatura de ficheros

Hay que asegurarse de que todo el equipo conoce y comprende los estándares establecidos para la organización de carpetas y el nombramiento de ficheros.
Para ello hay que crear un documento quick guide y asegurarse de que todos los miembros tienen acceso y están formados.

El nombre de un fichero es su principal identificador.
La estrategia de nomenclatura debe ser consistente en el tiempo y entre diferentes personas.
Todo el equipo investigador debe seguir la misma convención establecida y estar ésta documentada en un fichero independiente (quick guide).
Número de elementos o criterios a considerar:
- Descripción del contenido.
- Número del proyecto.
- Nombre del creador.
- Nombre del equipo de investigación o departamento asociado a los datos.
- Fechas de creación y de publicación.
- Número de versión.
Usa nombres de ficheros descriptivos:
- Único.
- Que refleje el contenido.
- Evitar el uso de caracteres raros y de espacios.
- Puede incluir guiones bajos.
- Corto, no más de 25 caracteres.
La forma más conveniente es dar a todos los archivos conectados al mismo evento un 'identificador de evento' al principio del nombre, es decir, en la primera parte del nombre.
La última parte del nombre se puede usar para transmitir los detalles o tipo, por ejemplo, si se trata de una cinta de audio, una transcripción o una imagen fija.

Ejemplo de buena práctica:

Altmetrics_ 01_ Modelos_V3_20201121_YMG.

✓Altmetrics – (nombre del proyecto)

✓01 – (paquete de trabajo)

✓Modelosdata2021 – (datos del experimento, actividad, etc.)

✓V3 – (versión)

✓20201121 – (fecha)

✓YMG – (autor/a)

Nomenclatura de variables

Al crear nuestra base de datos o el dataset de trabajo se debe tener presente el nombrar correctamente las variables. Hacerlo de manera correcta ayudará a su identificación, agrupación, interpretación y reproducibilidad. Se puede elegir entre:

Usar códigos numéricos que reflejen la posición de la variable en un sistema (por ejemplo, V001, V002, V003...).
Usar códigos que se refieran al instrumento de investigación (por ejemplo, número de pregunta en un cuestionario: Q1a, Q1b, Q2, Q3a...).
Usar nombres mnemotécnicos que se refieran al contenido de variables (por ejemplo, NACIMIENTO para el año de nacimiento, EDAD para la edad del encuestado, etc.)

¿Qué hacer cuando son muchos los ficheros a re-nombrar?
- Ex: Imágenes generadas automáticamente por cámaras.
- Batch renaming (también conocido como “mass file renaming”, “bulk renaming”) mediante:

Ant Renamer
RenameIT
Bulk Rename Utility
File explorer de Windows
Más información