Gestión de Datos de Investigación/
Fecha elaboración: 15/09/2022
Fecha revisión: 11/07/2022
Los principios FAIR (Principios Justos para la gestión de datos de investigación), se entienden como un conjunto de principios rectores para la gestión y administración de datos científicos. FAIR es un acrónimo acuñado por la Force11 (una comunidad de académicos, bibliotecarios, archivistas, editores y financiadores de la investigación que han surgido orgánicamente para ayudar a facilitar el cambio hacia la creación y el intercambio de conocimientos) (Peset et al., 2017) que fueron propuestos inicialmente en el artículo “FAIR Guiding Principles for scientific data management and stewardship” publicado por la revista Nature Scientific Data en el que se indica:
“Los principios enfatizan la capacidad de acción de la máquina (es decir, la capacidad de los sistemas computacionales para encontrar, acceder, interoperar y reutilizar datos con ninguna o mínima intervención humana) porque los humanos dependen cada vez más del soporte computacional para manejar los datos como resultado del aumento en el volumen, complejidad y velocidad de creación de datos” (Wilkinson et al., 2016).
FAIR propone un conjunto de principios esenciales que se deben tener en cuenta durante la gestión de datos de investigación (Findable, Accesible, Interoperable and Reusable). Cada principio incluye un conjunto de recomendaciones asociadas que son ampliamente explicadas en el portal web de la Iniciativa GO FAIR (https://www.go-fair.org/fair-principles/) (2021i).
“El ecosistema de datos FAIR está compuesto por: las políticas que regulan y definen los datos, los investigadores que los producen o utilizan, los planes de gestión de datos, los identificadores, los estándares, los repositorios de confianza y los servicios en la nube donde se almacenan los datos. A su vez, estos componentes deben desarrollarse en un marco proactivo de cuatro elementos clave: las capacidades o competencias (skills), las métricas (metrics), el sistema de reconocimiento (rewards) y la inversión (investment)” (Melero, 2018).
Los cuatro principios FAIR y sus recomendaciones asociadas se presentan a continuación:
Especifica que los datos deben ser buscables y fácilmente localizables a partir del uso de sistemas de información especializados, buscadores, cosechadores y directorios de datos.
- Recomendación F1 (GO FAIR, 2021e): Asignar (Utilizar) identificadores globales, únicos y persistentes a los datos y metadatos. Los identificadores globales únicos y persistentes PID (por sus siglas en inglés) surgen como una alternativa para solucionar la ambigüedad y localización de las distintas entidades asociadas a los ecosistemas de investigación (investigadores, datos, documentos/productos, instituciones, financiadores/patrocinadores, etc). El uso de los identificadores persistentes permite eliminar la ambigüedad en el significado de los datos publicados al asignar un identificador único a cada Dataset y sus metadatos asociados (incluyendo la descripción de otros PID en los metadatos). Posibilita su localización aunque estos hayan cambiado de ubicación en la red (cambio de URL). A su vez, permite garantizar la citación correcta de los datos, facilitar la interconexión e interoperabilidad entre sistemas y la detección de duplicidad de datos y fuentes de publicación. Se estipulan dos condiciones para su construcción:
- Debe ser globalmente único: (No se puede reutilizar para otros recursos). Se puede obtener identificadores globales y únicos mediante la suscripción de algún servicio de registro de identificadores, libre de barreras geográficas, que garantice la unicidad de los identificadores (DOI DataCite, DOI Crossref, Handle, PURL, ORCID, ROR, ISNI, etc.)
- Debe ser persistente: Los identificadores deben trascender el tiempo, deben ser permanentes con el fin de garantizar la resolubilidad de los identificadores en el futuro y poder seguir el enlace al recurso fuente.
- Recomendación F2 (GO FAIR, 2021f): Los metadatos que acompañan a los datos de investigación deben ser generosos y extensos. Estos deben contener campos de carácter descriptivo (descubrimiento del contexto, calidad y condición para identificar y describir el recurso), administrativo (manejo y procesamiento del recurso) y estructural (exploración, composición y representación del recurso). Adicionalmente, los datos se deben describir con metadatos enriquecidos que puedan ser procesables por máquinas, es decir, agregando declaraciones semánticas, vocabularios controlados, anotaciones, etc. Algunos de los modelos de metadatos más utilizados para describir datos de investigación son: DataCite Metadata Schema, Dublin Core Metadata Initiative y OpenAIRE Guidelines for Data Archives.
- Recomendación F3 (GO FAIR, 2021g): Los metadatos incluyen clara y explícitamente el identificador de los datos que describen. La asociación de un conjunto de datos y sus metadatos asociados debe hacerse explícita mencionando el identificador persistente en todos los contextos, por ejemplo al registrar e indexar datos y metadatos en un sistema de información (repositorio de datos, revista de datos, servicio de datos, etc.).
- Recomendación F4 (GO FAIR, 2021h): Los datos y metadatos se registran o indexan en un recurso de búsqueda. Se recomienda proveer los mecanismos de registro y mercadeo de los datos de investigación para que sean visibles (indexados, navegables, buscables y recuperables) en repositorios, directorios, bancos de datos, buscadores y recolectores tanto generales como especializados en datos de investigación.
Este aspecto busca que los datos, una vez localizados mediante el uso de herramientas y protocolos abiertos, se pueda acceder directa y libremente a sus metadatos para comprender su contenido, enfoque y alcance. Así mismo, tanto como sea posible se puedan descargar los dataset completos para su reutilización.
- Recomendación A1 (GO FAIR, 2021a): Los datos y metadatos se pueden recuperar por su identificador utilizando un protocolo de comunicación estandarizado. Los identificadores persistentes, generalmente incluyen los protocolos de red asociados (http/https, ftp, etc.) que permite acceder a los datos y metadatos de investigación. Se busca que el acceso a los datos y metadatos se haga con protocolos abiertos y que se eviten las barreras de acceso ó el uso de protocolos que tienen implementaciones limitadas, documentación deficiente y componentes que involucran la intervención humana ó manual.
- Recomendación A1.1 (GO FAIR, 2021b): Para garantizar la accesibilidad, los protocolos de acceso a los datos y metadatos deben ser abiertos, gratuitos y de implementación universal. Se busca que cualquier persona que tenga un dispositivo electrónico conectado a Internet y como mínimo un navegador de internet, pueda acceder a los contenidos completos ó, al menos a los metadatos asociados. No deben existir barreras que impliquen instalar aplicativos especializados, versiones específicas de los navegadores, ó la conexión mediante protocolos propietarios.
- Recomendación A1.2 (GO FAIR, 2021c): Los protocolos deben permitir, además, un procedimiento de autenticación y autorización, si fuera necesario. Que un recurso sea accesible, no significa que se encuentre necesariamente abierto. Pueden existir datos que tengan limitaciones de acceso debido a su contenido (datos sensibles, personales) ó que tengan barreras impuestas por las instituciones (patentes), los protocolos de acceso deben proporcionar las condiciones exactas bajo las cuales los datos son accesibles para que sean JUSTOS.
- Recomendación A2 (GO FAIR, 2021d): Los metadatos deben ser accesibles incluso cuando los datos ya no estén disponibles. Mediante la aplicación de directrices de preservación a largo plazo, se debe garantizar como mínimo, el poder acceder a los metadatos, aunque los datos ya no estén disponibles (se encuentren obsoletos, cambien de ubicación, se hayan descartado ó eliminado).
Los datos y datasets deben ser construidos con formatos abiertos (formatos que pueden ser desplegados por múltiples herramientas y sistemas de información), así mismo deben ser almacenados en sistemas de información que integren estándares y protocolos abiertos que permitan su intercambio de manera transparente y autónoma.
- Recomendación I1 (GO FAIR, 2021j): Los datos y metadatos utilizan un lenguaje formal, accesible, compartido y de amplia aplicación para la representación del conocimiento. Se busca que el intercambio y la interpretación de los contenidos (datos y metadatos) se haga de manera transparente entre humanos y entre máquinas. Por eso, los sistemas informáticos utilizados deben incluir protocolos de interoperabilidad accesibles, compartidos y normalizados que permitan el intercambio y la interpretación automática y transparente de los recursos.
- Recomendación I2 (GO FAIR, 2021k): Describir los datos y metadatos con vocabularios (esquemas, ontologías, etc.) que también sigan los principios FAIR. Durante la organización de los datos y en la construcción de los DataSets, se busca utilizar las mejores prácticas estandarizadas de notación de campos, representación de contenidos/variables (especialmente categóricos) y la gestión de campos y contenidos de los metadatos mediante el uso de lenguajes formales y de uso estandarizado. Se recomienda utilizar los vocabularios semánticos propuestos por COAR, DataCite, y los entes reguladores nacionales. El uso de vocabularios semánticos involucra la creación de conceptos que incluyen identificadores persistentes.
- Recomendación I3 (GO FAIR, 2021l): Incluir referencias cruzadas y enlaces entre datos y metadatos. Una referencia cruzada especifica la constitución de una relación de carácter “normalizado” de un recurso/datos/metadato que enlaza mediante el uso de un identificador persistente, a otro recurso/datos/metadatos (Creación de vínculos científicos entre conjuntos de datos). Las distintas relaciones posibles entre recursos se deben tomar de vocabularios normalizados siguiendo los principios de la gestión de datos abiertos enlazados (Linked Open Data).
Este principio específica que se deben crear Datasets completos y organizados que incluyan datos, metadatos, licencias, guías y documentos que describan todo el ciclo de vida de los datos de investigación y permitan la reutilización de los datos contenidos.
- Recomendación R1 (GO FAIR, 2021): Los datos y metadatos se describen detalladamente con una pluralidad de atributos precisos y relevantes. Esta recomendación se centra en la capacidad de un usuario (máquina o humano) para decidir si los datos son realmente ÚTILES en un contexto particular. Para ello, los datos deben incluir etiquetas y ayudas auto aclaratorias que permitan entender las variables asociadas. Así mismo deben incluir documentación anexa que describa detalladamente el contexto en el que se generaron los datos y su entorno de medición, aplicación y limitaciones. Adicionalmente los metadatos deben ser ampliamente construidos a través de la mayor cantidad de campos de descripción normalizados utilizando distintos esquemas de metadatos asociados a la tipología del dato, los cuales permitan su descubrimiento y reutilización.
- Recomendación R1.1 (GO FAIR, 2021m): Los datos y metadatos se publican con una licencia de uso de datos clara y accesible. Los investigadores que generaron los distintos conjuntos de datos, deben proveer autorizaciones de publicación que permitan la distribución libre y abierta de los recursos mediante el uso de sistemas de información (repositorios, revistas y sistemas especializados). Dichos sistemas a su vez deben incluir en los datos publicados, de manera clara y visible, las distintas licencias de uso y acceso que especifiquen claramente las condiciones en las que se pueden reutilizar los datos y que deben ser claras para las máquinas y los seres humanos.
- Recomendación R1.2 (GO FAIR, 2021n): Los datos y metadatos incluyen una descripción detallada de la procedencia de los mismos. Se recomienda utilizar los criterios de procedencia que detallan los elementos de la creación, atribución, flujos de trabajo e historial de versiones de los datos durante todo su ciclo de vida. Idealmente, estos criterios de procedencia se deben describir en formatos legibles por máquina.
- Recomendación R1.3 (GO FAIR, 2021o): Los datos y metadatos cumplen con los estándares relevantes para el dominio y área de conocimiento comúnmente aceptados. Durante la generación de los datos, se deben revisar las mejores prácticas y estándares aplicables para su estructura y organización en el área de conocimiento aplicada: Utilizar los mismos tipos de datos, organizados de manera estandarizada, formatos de archivo bien establecidos y sostenibles, documentación (metadatos) siguiendo una plantilla común y utilizando un vocabulario común.
GO FAIR. (2021a). A1: (Meta)data are retrievable by their identifier using a standardised communication protocol. GO FAIR. https://www.go-fair.org/fair-principles/metadata-retrievable-identifier-standardised-communication-protocol/
GO FAIR. (2021b). A1.1: The protocol is open, free and universally implementable. GO FAIR. https://www.go-fair.org/fair-principles/a1-1-protocol-open-free-universally-implementable/
GO FAIR. (2021c). A1.2: The protocol allows for an authentication and authorisation where necessary. GO FAIR. https://www.go-fair.org/fair-principles/a1-2-protocol-allows-authentication-authorisation-required/
GO FAIR. (2021d). A2: Metadata should be accessible even when the data is no longer available. GO FAIR. https://www.go-fair.org/fair-principles/a2-metadata-accessible-even-data-no-longer-available/
GO FAIR. (2021e). F1: (Meta) data are assigned globally unique and persistent identifiers. GO FAIR. https://www.go-fair.org/fair-principles/f1-meta-data-assigned-globally-unique-persistent-identifiers/
GO FAIR. (2021f). F2: Data are described with rich metadata. GO FAIR. https://www.go-fair.org/fair-principles/f2-data-described-rich-metadata/
GO FAIR. (2021g). F3: Metadata clearly and explicitly include the identifier of the data they describe. GO FAIR. https://www.go-fair.org/fair-principles/f3-metadata-clearly-explicitly-include-identifier-data-describe/
GO FAIR. (2021h). F4: (Meta)data are registered or indexed in a searchable resource. GO FAIR. https://www.go-fair.org/fair-principles/f4-metadata-registered-indexed-searchable-resource/
GO FAIR. (2021i). FAIR Principles. GO FAIR. https://www.go-fair.org/fair-principles/
GO FAIR. (2021j). I1: (Meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation. GO FAIR. https://www.go-fair.org/fair-principles/i1-metadata-use-formal-accessible-shared-broadly-applicable-language-knowledge-representation/
GO FAIR. (2021k). I2: (Meta)data use vocabularies that follow the FAIR principles. GO FAIR. https://www.go-fair.org/fair-principles/i2-metadata-use-vocabularies-follow-fair-principles/
GO FAIR. (2021l). I3: (Meta)data include qualified references to other (meta)data. GO FAIR. https://www.go-fair.org/fair-principles/i3-metadata-include-qualified-references-metadata/
GO FAIR. (2021). R1: (Meta)data are richly described with a plurality of accurate and relevant attributes. GO FAIR. https://www.go-fair.org/fair-principles/r1-metadata-richly-described-plurality-accurate-relevant-attributes/
GO FAIR. (2021m). R1.1: (Meta)data are released with a clear and accessible data usage license. GO FAIR. https://www.go-fair.org/fair-principles/r1-1-metadata-released-clear-accessible-data-usage-license/
GO FAIR. (2021n). R1.2: (Meta)data are associated with detailed provenance. GO FAIR. https://www.go-fair.org/fair-principles/r1-2-metadata-associated-detailed-provenance/
GO FAIR. (2021o). R1.3: (Meta)data meet domain-relevant community standards. GO FAIR. https://www.go-fair.org/fair-principles/r1-3-metadata-meet-domain-relevant-community-standards/
Melero, R. (2018). Recomendaciones para la gestión de datos de investigación dirigidas a investigadores [Proyecto CSO2015-71867-REDT]. Maredata. Red Española sobre Datos de Investigación en Abierto. http://digital.csic.es/bitstream/10261/173801/1/Maredata-recomendaciones-ESP.pdf
Peset, F., Aleixandre-Benavent, R., Blasco-Gil, Y., & Ferrer-Sapena, A. (2017). Datos abiertos de investigación. Camino recorrido y cuestiones pendientes. Anales de Documentación, 20(1). https://doi.org/10.6018/analesdoc.20.1.272101
Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18