Ir al contenido principal

Datos de investigación

Qué son los datos de investigación, elaborar un Plan de Gestión de Datos, repositorios de datos, obligaciones, etc.

¿Qué son los datos de investigación?

Según la OCDE, se consideran datos de investigación "todo aquel material nuevo registrado durante la investigación (datos numéricos, textuales, audiovisuales, digitales o físicos), reconocido por la comunidad científica y que sirve para certificar o validar los resultados de la investigación".

Según Yusnelkis Milanés y Ángel M. Delgado, de la Universidad Pablo de Olavide son “datos que son recolectados, observados o creados para ser analizados y producir resultados de investigación originales”.

¿Qué son datos?

• Textos: Cuestionarios, transcripciones de entrevistas, codebooks, metodologías, flujos de trabajo, procedimientos, protocolos, notebooks, diarios de investigación, etc.

• Numéricos: Respuestas a encuestas, registros médicos, respuestas a tests, hojas de Excel, instrumentos de medida, info geoespacial, etc. (Stata, Spss, Excel, Gis)

• Multimedia: Imágenes, audio recordings, videos (jpeg, png, tiff, mp3, wav, mpeg, quicktime)

• Códigos: Fuentes de código, algoritmos, scripts (R, Python, Java, MATLAB)

• Sintaxis: Software specific code files to carry out data processing steps (p.e. data preparation, linkage, statistical analysis, etc ) (Stata, SPSS, R, MATLAB)

• Específicos de una disciplina: Los tipos de datos pueden incluir: Flexible Image Transport System (FITS) [Astronomy]; Crystallographic Information File (CIF) [Chemistry]; GRIdded Binary (GRIB) [Meteorology]

• Experimentales:  Generados por equipos de laboratorio. Suelen ser reemplazables y caros (Ejm: Secuencias genómicas, cromatografías, etc)

• Modelos o simulaciones: Generados por modelos, el modelo y los medata es lo más importante.

• Observacionales o datos derivados, reproducibles, capturados en tiempo real, irremplazables (Ejm: datos de sensores, encuestas, telemetría, neuroimágenes, etc.)

La Ciencia Abierta

La preocupación por la gestión de los datos de Investigación se enmarcan en el movimiento "Open Science". La ciencia abierta ocupa un lugar central en la política de investigación europea. Se desarrollan e implementan políticas, iniciativas y estructuras para abrir la ciencia y la investigación europeas y hacerlas más eficientes y productivas, fluidas, transparentes y sólidas, y responder a las necesidades y expectativas de la sociedad y las políticas.

El movimiento de Open Science va más allá del Open Access.

Open Access: Acceso libre y gratuito a publicaciones científicas.

Open Science: Acceso libre y gratuito a publicaciones científicas, datos de investigación (FAIR), métricas abiertas, software libre, recursos educativos en abierto, open peer-review y ciencia ciudadana.

El ciclo de los datos científicos

Toda investigación tiene un ciclo vital, concepto utilizado en la Gestión de Datos de Investigación. Se refiere a los pasos que se deben seguir en las diferentes etapas del ciclo de la investigación para garantizar el éxito en la conservación de los datos.

Infografía ilustrativa dREBIUN:

Principios FAIR (*)

El 15 de marzo de 2016 fue publicado en la revista Scientific Data de Nature el artículo Principios FAIR para el manejo y administración de datos científicos. El interés de la aplicación de estos principios se refleja en su incorporación en los proyectos del Programa Horizonte 2020 de Investigación e Innovación de la Unión Europea

Los Principios FAIR ofrecen un conjunto de cualidades precisas y medibles que una publicación de datos debería seguir para que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables (del inglés FAIR – Findable, Accessible, Interoperable, and Reusable)El principal objetivo de los principios FAIR es preparar los datos de investigación para que tanto humanos como máquinas puedan recuperarlos y reutilizarlos de la mejor manera posible:

(Fuente: datos.gob.es)

(F)INDABLE (encontrables) Los datos y metadatos deben poder ser encontrados por la comunidad después de su publicación mediante herramientas de búsqueda, tanto de forma manual como a través de máquinas:

  • Depositando los datos en los lugares adecuados (repositorios, revistas).
  • Incluyendo metadatos.
  • Utilizando identificadores persistentes (DOI/ ORCID, RoR).

(A)CCESSIBLE (accesibles) Los datos y metadatos están accesibles y por ello pueden ser descargados por otros investigadores utilizando sus identificadores:

  • Los datos deben ser tan abiertos como sea posible, tan cerrados como sea necesario.
  • Abre todo aquello que puedas.
  • Indica las condiciones de acceso.
  • Deposita, identifica y describe adecuadamente los datos con sus identificadores.

(I)NTEROPERABLE (interoperables) Tanto los datos como los metadatos deben estar descritos siguiendo las reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su reutilización:

  • La interoperabilidad permite el intercambio de información entre personas, instituciones y máquinas.
  • Utiliza esquema de metadatos adecuados. Enlaza con otros datos y metadatos.
  • Utiliza formatos abiertos.

(R)EUSABLE (reutilizables) Los datos y los metadatos pueden ser reutilizados por otros investigadores, al quedar clara su procedencia y las condiciones de reutilización:

  • Utiliza una licencia abierta.
  • Describe adecuadamente la procedencia de los datos.
  • Usa un esquema de metadatos y un formato común según la tipología/comunidad.

Algunas herramientas para valorar si sus datos son FAIR:

Aspectos éticos

Hay algunos aspectos éticos que ha que considerar en todo proyecto de gestión de datos de investigación y que deben de estar presentes tanto en el diseño de la investigación como en su ejecución.

Todo proyecto debe guiarse por la legislación nacional e internacional y por el correspondiente comité de ética en la investigación. La recogida y tratamiento de datos debe ser acorde siempre con la legislación aplicable, según corresponda.

Aspectos a considerar:

  • Confidencialidad.
  • Voluntariedad/Recogida de datos bajo presión.
  • Consentimiento informado: finalidad, alcance, riesgos.
  • Declaración explícita de conflictos de intereses.
  • Revelaciones imprevistas (inferencias a partir de datos recogidos).
  • Inseguridad (quién podrá ver y manejar los datos).
  • Apropiación/restricción de acceso (investigación en colaboración).
  • Recogidas de datos no autorizada (sensores, redes).

Fuentes

  • La información para la elaboración de esta guía se basa en el curso impartido para la Universidad de La Rioja en 2024 por Yusnelkis Milanés Guisado y Ángel M. Delgado Vázquez: "La gestión de datos de investigación en el contexto de la Ciencia Abierta" Yusnelkis Milanés es Coordinator and professor Research Support Expert Program de la Universidad Pablo de Olavide, de Sevilla. Ángel M. Delgado Vázquez es Jefe de Servicio de Soporte al Aprendizaje y la Investigación en Universidad Pablo de Olavide, de Sevilla y Profesor Área Biblioteconomía y Documentación.
  • (*) Principios FAIR: Buenas prácticas para la gestión y administración de datos científicos / Secretaría de Estado de Digitalización e Inteligencia Artificial, Ministerio para la Transformación Digital y Función Pública (2017).