Gestión de Datos de Investigación/
Fecha de elaboración: 15/07/2021
Fecha de ajuste: 09/07/2022
Con el advenimiento de las tecnologías de Información y comunicación, que se encuentran potenciadas en la era de la explosión y abundancia de los datos comúnmente llamado Big Data, la gestión de conocimiento científico, considerado como un elemento del entorno de acción en el marco de ciencia abierta, la gestión de datos de investigación se advierte como un elemento indispensable a considerar de manera prioritaria por los investigadores en el desarrollo de sus proyectos de investigación para que mediante el uso de licencias flexibles y preferentes, los datos se encuentren disponibles y se permita su uso y acceso libre, sin restricciones. De tal forma que sea posible verificar, evaluar, reproducir, distribuir, reutilizar y regenerar los datos y sus métodos subyacentes para el desarrollo de nuevos proyectos de investigación derivados que contribuyan al avance rápido y óptimo en el descubrimiento de soluciones y la resolución de problemas que aquejan a nuestra sociedad.
Los sistemas de información académicos y científicos (portales de revista), deben asegurar a su comunidad de usuarios los recursos necesarios para el adecuado acceso confiable y seguro a sus fuentes documentales (recursos de información). Esto implica que deben velar por la calidad de la información (datos, metadatos y documentos) que ofrecen, buscando en todo momento que estos se encuentren alineados a las principales normas e iniciativas nacionales e internacionales y que simultáneamente estén ajustados a las nuevas tendencias globales de información académica y científica.
El presente documento busca aclarar los elementos básicos para comprender qué son los datos de investigación, cómo se generan, gestionan, utilizan, entre otros aspectos.
Desde un enfoque constructivista, se entienden los datos como la representación simbólica (numérica, alfabética, etc.), de un atributo o característica de una entidad (ser) que se manifiesta a través de un hecho o un proceso (Davenport & Prusak, 1998). Dicho de otra manera, los datos permiten representar un estado de la realidad asociado a un momento (tiempo) a través de la codificación (símbolos pertenecientes a un lenguaje) de esta realidad en un medio (soporte y formato) que puede ser entendido, utilizado, compartido y transformado tanto por un humano como por una máquina (Hardware y Software).
Los datos son infinitos, estos permiten representar hechos empíricos, sucesos y entidades, que se pueden generar en cualquier momento y lugar. Los datos se pueden ver como la unidad primaria y mínima de representación, los cuales por sí solos son irrelevantes y no suelen indicar nada sobre el porqué de las cosas. Un dato no tiene valor semántico (sentido) en sí mismo, solamente tienen valor sintáctico. Por ello, son óptimos para ser procesados en la realización de cálculos o en la toma de decisiones.
Un dato puede ser cualquier cosa, dependiendo de la disciplina científica, los datos se presentan desde múltiples orígenes y en distintos medios. Generalmente se asocian con elementos cuantitativos (finitos e infinitos dependiendo de la escala de medición) como: una temperatura, una representación horaria, una talla, una medida, un nombre, un número de teléfono, una zona geográfica, un color, una presión atmosférica, una dirección, entre otros. Sin embargo, en el ámbito más amplio puede integrar valores cualitativos que se puedan representar como una emoción, una idea, un sentimiento, un aroma, una expresión facial, una escala vocal, un post en una red social (Twitter, Facebook, etc.), una huella biométrica, entre otros.
Vivimos en un mundo rodeado por los datos. Los datos pueden ser tan simples o complejos tanto como se expresa digitalmente la representación de este. Los datos pueden ser abstractos como un número o un texto (alfanumérico), pero también pueden representar elementos más amplios como una fotografía, un vídeo, un audio, una partitura, un audio/sonido, etc.
La información (datos organizados con sentido y utilidad para una entidad) se producen cuando diversos conjuntos de datos se relacionan entre sí a través de distintos componentes.
“Los datos se convierten en información cuando son combinados entre ellos según un método que tenga el potencial de revelar los patrones del fenómeno estudiado" (Peset Mancebo & González, 2017)
Big data es un término de origen inglés cuya traducción equivale a “datos masivos”. El concepto de Big Data se está utilizando actualmente a partir de la diversificación de los medios de recopilación y procesamiento de múltiples conjuntos de datos en el ámbito digital que son potenciadas por la creciente penetración de las tecnologías de la información y comunicación - TIC. Estamos experimentando una evolución constante de las tecnologías para el análisis, la explotación y el tratamiento de datos (cada día se están generando y recopilando nuevos tipos de datos tanto en el sector público como privado) las cuales propician la creación de nuevos servicios y aplicaciones que a su vez promueven nuevas oportunidades económicas y sociales. Así mismo, impulsa el desarrollo de nuevas tecnologías como el aprendizaje automático, la inteligencia artificial y el internet de las cosas.
Una de las definiciones clásicas de Big Data que fue acuñada por la consultora McKinsey Global Institute y que pone de manifiesto el uso avanzado de las nuevas tecnologías indica que, “Big Data se refiere a los conjuntos de datos cuyo tamaño está más allá de las capacidades de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar” (Manyika et al., 2011). Esta definición establece que Big Data va mucho más allá del uso masivo de los tradicionales motores de bases de datos relacionales, incorporando nuevas tecnologías, herramientas y modelos que permiten una adecuada gestión de grandes volúmenes de datos.
Otra definición ampliamente utilizada lo define como:
“... grandes conjuntos de datos que poseen tres características principales: volumen (cantidad), velocidad (velocidad de creación y utilización) y variedad (tipos de fuentes de datos no estructurados, tales como la interacción social, video, audio, cualquier cosa que se pueda clasificar en una base de datos)” (Prentice, 2011). Así mismo, otros autores definen un concepto más amplio de Big Data que incluye “conjunto de arquitecturas y herramientas informáticas destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos desde todo tipo de fuentes, diseñadas para extraer valor y beneficio de estos, con una amplia variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar información a alta velocidad y con un coste reducido” (García Herrero et al., 2018).
Los datos de investigación (Data Research) son aquellos productos (recursos documentales) intermedios que generados o recopilados durante el desarrollo de un proyecto de investigación, los cuales se convierten en evidencia temprana del proceso de investigación y que sirven para validar, verificar, reproducir o certificar los productos resultados finales de dicha investigación y que sólo adquieren significado en el contexto de esta.
Otras definiciones incluyen:
- “Los datos de investigación son todo aquel material que sirve para certificar los resultados de la investigación que se realiza, que se han registrado durante ella y que se ha reconocido por la comunidad científica” (Peset Mancebo & González, 2017).
- “Son todo aquel material que ha sido registrado durante la investigación, reconocido por la comunidad científica y que sirve para certificar los resultados de la investigación que se realiza” (Torres-Salinas et al., 2012).
- “Datos que se utilizan como fuentes primarias para respaldar la investigación técnica o científica, la investigación, las becas o la actividad artística, y que se utilizan como evidencia en el proceso de investigación y / o son comúnmente aceptados en la comunidad de investigadores como necesarios para validar los hallazgos y resultados de la investigación. Los datos de investigación pueden ser datos experimentales, datos de observación, datos operativos, datos de terceros, datos del sector público, datos de seguimiento, datos procesados o datos reutilizados” (Consortia Advancing Standards in Research Administration Information, CASRAI, 2021).
Los datos de investigación son dinámicos y van cambiando a lo largo de la investigación, por tanto, se deben gestionar durante todo el ciclo de vida del proyecto de investigación y pueden ser representados de manera alfabética, numérica o audiovisual, dependiendo de la disciplina y de la naturaleza de la investigación. “Ejemplos de datos de investigación son los cuestionarios, los registros sonoros o visuales (fotografías, películas, videos, diapositivas) y todo tipo de imágenes, registros y medidas de cualquier tipo de prueba o experimento, muestras, modelos, cuadernos de laboratorio y de campo, series numéricas en tablas, registros de ordenador, estadísticas” (Aleixandre-Benavent et al., 2021). Así mismo, para su correcta comprensión deben estar bien documentados e incluir los metadatos que los describan.
Los principales beneficios de los datos de investigación abiertos son (Universidad de Alcalá. Biblioteca, 2021):
Existen diferentes modelos de clasificación de los datos de investigación, en general distintos autores proponen clasificarlos en función de su origen, su estatus/versión o de la metodología aplicada para su uso (Grupo de Trabajo de “Depósito y Gestión de datos en Acceso Abierto” del proyecto RECOLECTA, 2012; Borgman, 2012; National Science Board, 2005):
En la literatura científica, comúnmente se define a los Dataset como un “conjunto de datos de investigación generados durante la ejecución de un proyecto de investigación”. Estos Dataset son los productos resultantes de la aplicación de algún instrumento de investigación (Encuestas, entrevistas, fichas de observación, cuaderno de notas, diarios de campo, cuestionarios, cámara fotográfica, etc.). Generalmente un proyecto de investigación puede crear tantos Dataset como instrumentos aplique, entendiendo que su gestión se puede hacer de manera independiente o mezclada con otros Datasets.
Sin embargo, cuando se asocia la gestión de los datos de investigación con la implementación de sistemas de información especializados para la gestión de estos, el concepto y aplicación de un Dataset se amplía radicalmente. Se denomina Dataset de investigación a un objeto digital compuesto y heterogéneo el cual se representa como un contenedor que agrupa: DataFiles, Documentación, Metadatos y Código Fuente (Figura 1.). “Los datasets se almacenan y gestionan en repositorios interoperables en red integrados en una infraestructura global de investigación, desarrollados conforme a estándares internacionales” (Grupo de Trabajo de “Depósito y Gestión de datos en Acceso Abierto” del proyecto RECOLECTA, 2012):
Así mismo, en la documentación asociada para cada archivo que contenga conjunto de datos específicos y relacionados, se recomienda incluir los siguientes aspectos:
La Gestión de datos de investigación (GDI) o Research Data Management (RDM) es una práctica importante tanto para las instituciones como para los investigadores que hace parte integral en cualquier proceso de investigación, la cual engloba todos los aspectos de adquisición, organización, almacenamiento, procesamiento, transformación, visualización, uso, licenciamiento y publicación de los datos utilizados o generados durante un proyecto de investigación (gestión de los datos a lo largo de todas las fases del proyecto de investigación). “La gestión de datos de investigación no es una meta en sí misma, sino la serie de pasos y requisitos que permiten la reutilización de datos y la generación de nuevos conocimientos” (Actis & Carlino, 2017).
En resumen, la Gestión de datos de investigación (GDI) busca proveer los elementos, buenas prácticas y herramientas que permiten a los investigadores gestionar todo el ciclo de vida de los datos de investigación generados o adquiridos, ayudando a garantizar la calidad de la investigación. Realizar una adecuada gestión de datos de investigación genera los siguientes beneficios (Universidad de Alcalá. Biblioteca, 2021):
Como se mencionó anteriormente, durante la ejecución de un proyecto de investigación, se debe establecer un plan de trabajo que permita realizar una adecuada Gestión de datos de investigación (GDI). Este plan de trabajo establece las distintas actividades y tareas asociadas durante todo el ciclo de vida de los datos de investigación (desde su creación o captura y almacenamiento, pasando por su uso en distintas actividades de procesamiento, hasta que éstos se vuelven obsoletos y se eliminan) que se deben realizar y se formalizan en la construcción de un documento (generalmente basado en una plantilla) llamado “Plan de Gestión de Datos de investigación” (PGD).
La Gestión de datos de investigación se desarrolla incluso desde antes del inicio de un proyecto de investigación y permite que los datos de investigación tengan una vida útil que trascienda más allá del proyecto de investigación que los crea. La misma dinamicidad de los datos, permiten que estos se vayan transformando a lo largo de la investigación, esta continua transformación se conoce como el “Ciclo de vida de los datos de investigación”. Los investigadores pueden continuar trabajando con distintos datos de investigación mucho después de que haya cesado el proyecto que los generó, así mismo, los proyectos de investigación derivados también pueden reutilizar y ampliar datos de investigación previamente creados en otros proyectos. “Los datos bien organizados, bien documentados, preservados y compartidos son invaluables para promover la investigación científica y aumentar las oportunidades de aprendizaje e innovación” (UK Research and Innovation, UKRI, 2021).
El Ciclo de vida de los datos de investigación proporciona una estructura que describe cada una de las fases (proceso sistemático dividido en etapas) que se deben tener en cuenta durante la gestión de datos de investigación. Existen diferentes modelos que representan el ciclo de vida de los datos de investigación los cuales proporcionan una base que define las muchas operaciones que deberán llevarse a cabo durante la gestión de datos de investigación. Algunos de los principales modelos que representan el ciclo de vida de los datos de investigación se muestran a continuación:
El modelo propuesto por Digital Curation Centre (DCC) del Reino Unido (Higgins, 2008), establece un ecosistema de fases y relaciones asociadas con el ciclo de vida de los datos de investigación y las tareas asociadas a los procesos de curación de los mismos (Curation Lifecycle Model). Este modelo está orientado principalmente a los profesionales de la información que participan en los distintos roles de apoyo a los investigadores y que estarían a cargo de la curaduría y preservación de los datos. El modelo incluye cuatro acciones persistentes durante todo el proyecto (Describir/Representar Datasets, Planificar la preservación, Integrar a la comunidad en Participación/Vigilancia/Monitoreo, Realizar Preservación Digital/Curación de Datos), ocho acciones secuenciales continuas (Conceptualizar/Modelar, Crear/Adquirir, Valorar/Seleccionar, Consumir, Preservar, Almacenar, Acceder/Utilizar/Reutilizar, Transformar) y tres acciones ocasionales (Disponer/Publicar, Reevaluar, Migrar). “El modelo expuesto por el DCC proporciona las etapas requeridas para la curaduría y la preservación de los datos desde la conceptualización inicial y puede ser utilizado para planificar las actividades de un proyecto de investigación para asegurar que se llevan a cabo todas las etapas necesarias, cada una en la secuencia correcta. Permite definir roles y responsabilidades, y construir un marco normativo. En el centro del modelo se encuentran los datos digitales, que están identificados con objetos o bases de datos simples y complejos. Las relaciones entre las etapas del ciclo de vida presentadas por el modelo señalan los principales niveles de acciones sobre la curaduría de los datos” (Couto Corrêa, 2016).
La organización DataONE (Data Observation Network for Earth) propone un modelo de ciclo de vida de los datos de investigación (Data life cycle model) (Strasser et al., 2012):
El modelo está orientado principalmente para ser ejecutado desde la perspectiva de los investigadores y se desarrolló como una guía para educar a los investigadores sobre las mejores prácticas que pueden seguir en la gestión de sus datos. El modelo propuesto define ocho (8) fases (Universidad de Valladolid. Biblioteca, 2021):
El modelo del ciclo de los datos científicos desarrollado por la Red de Bibliotecas Universitarias Españolas -REBIUN- en la línea estratégica LÍNEA 2: Transformación Digital y Conocimiento Abierto, está basado en la propuesta del ciclo de vida de la gestión de datos de investigación del Joint Information Systems Committee (JISC) (2018). Este modelo construido mediante una infografía, incluye once (11) fases agrupado en cuatro áreas de trabajo que contemplan las distintas acciones que se deben realizar desde las dos perspectivas: investigadores y profesionales de la información:
El modelo expone de manera explícita el desarrollo de un trabajo colaborativo permanente durante todo el desarrollo del proyecto de investigación y da especial importancia a la presencia de un equipo especializado en datos de investigación que debería tener la unidad de información de cualquier organización. Las fases de este modelo se explican a continuación:
FAIR es un acrónimo acuñado por la Force11 (una comunidad de académicos, bibliotecarios, archivistas, editores y financiadores de la investigación que han surgido orgánicamente para ayudar a facilitar el cambio hacia la creación y el intercambio de conocimientos) (Peset et al., 2017) que es generado a partir de la combinación de cuatro principios esenciales que se deben tener en cuenta durante la gestión de datos de investigación (Findable, Accesible, Interoperable and Reusable):
Un Plan de Gestión de Datos de Investigación (PGDI) es un documento estructurado a partir de una plantilla, que describe las tareas asociadas que se realizarán durante todo el proyecto de investigación y que están asociadas a cada una de las fases del ciclo de vida de los datos de investigación. Dichas tareas describen de manera específica, bajo el contexto propio del proyecto de investigación (vinculados al dominio y disciplina científica del proyecto), el tratamiento que van a recibir los datos de investigación recopilados, procesados o generados por el mismo. Un Plan de Gestión de Datos de Investigación busca que los datos cumplan los Principios FAIR y se constituye como un documento vivo en continuo cambio y evolución que se va perfeccionando durante el período de vigencia del proyecto:
“El PGDI debería actualizarse al menos una vez hacia la mitad del transcurso del proyecto y otra al final para hacer los ajustes necesarios sobre los datos generados y los usos identificados por el proyecto de investigación, ya que no todos los datos o los usos potenciales que se pueda hacer de ellos están claros desde el principio. Se deberán crear nuevas versiones del PGD siempre que haya cambios importantes en el proyecto debidos a la inclusión de nuevos conjuntos de datos, a cambios en las políticas o a factores externos” (Directrices para la Gestión de Datos en Horizonte 2020, 2013).
Para la construcción de planes de gestión de datos de investigación (PGDI), se puede utilizar alguna de las herramientas existentes, las cuales proveen múltiples plantillas, modelos de aplicación y ejemplos de PDGI de otros proyectos. Estas herramientas facilitan a los investigadores el desarrollo de este documento por medio de formularios amigables que incluyen explicaciones y aclaraciones. Las herramientas más conocidas son:
Actis, G., & Carlino, L. (2017). Actas BIREDIAL-ISTEC 2017: VII Conferencia Internacional sobre Bibliotecas y Repositorios Digitales de América Latina (BIREDIAL-ISTEC’17): XII Simposio Internacional de Bibliotecas Digitales (SIBD’17) (M. R. De Giusti, Ed.). Universidad Nacional de La Plata ; ISTEC. https://libros.unlp.edu.ar/index.php/unlp/catalog/download/802/794/2650-1
Aleixandre-Benavent, R., Ferrer Sapena, A., & Peset, F. (2021). Compartir los recursos útiles para la investigación: Datos abiertos (open data). Educación Médica, 22, 208–215. https://doi.org/10.1016/j.edumed.2019.07.004
Borgman, C. (2012). Why are the attribution and citation of scientific data important? En P. E. Uhlir (Ed.), For Attribution: Developing Data Attribution and Citation Practices and Standards: Summary of an International Workshop (pp. 1–10). The National Academies Press. https://doi.org/10.17226/13564
Consortia Advancing Standards in Research Administration Information, CASRAI. (2021). Research Data Management Glossary. CASRAI. https://casrai.org/rdm-glossary/
Couto Corrêa, F. (2016). Gestión de datos de investigación. Editorial UOC.
DataCite Schema. (2019). [Website]. DataCite Schema. https://schema.datacite.org/
Davenport, T. H., & Prusak, L. (1998). Working knowledge: How organizations manage what they know. Harvard Business School Press. http://search.ebscohost.com/login.aspx?direct=true&scope=site&db=nlebk&db=nlabk&AN=7259
Directrices para la Gestión de Datos en Horizonte 2020. (2013). https://www.consorciomadrono.es/wp-content/uploads/2017/05/directrices_gestion_datos_horizon_2020_es.pdf
García Herrero, J., Molina López, J. M., Berlanga de Jesús, A., Patricio Guisado, M. Á., Bustamante, Á. L., & Padilla R., W. (2018). Ciencia de datos: Técnicas analíticas y aprendizaje estadístico. Un enfoque práctico. Alfaomega.
Green, T. (2009). We Need Publishing Standards for Datasets and Data Tables. OECD Publishing white papers. https://unece.org/fileadmin/DAM/stats/documents/ece/ces/ge.40/2010/wp.8.e.pdf
Grupo de Trabajo de “Depósito y Gestión de datos en Acceso Abierto” del proyecto RECOLECTA. (2012). La conservación y reutilización de los datos científicos en España [Informe del grupo de trabajo de buenas prácticas]. Fundación Española para la Ciencia y la Tecnología, FECYT. https://recolecta.fecyt.es/sites/default/files/contenido/documentos/informe_datos_cientificos_en_esp.pdf
Higgins, S. (2008). The dcc curation lifecycle model. Proceedings of the 8th ACM/IEEE-CS Joint Conference on Digital Libraries - JCDL ’08, 453. https://doi.org/10.1145/1378889.1378998
Institute for Quantitative Social Science. (2021). Dataset + File Management. https://guides.dataverse.org/en/latest/user/dataset-management.html
Joint Information Systems Committee, JISC. (2018). Research data management toolkit. Jisc. https://www.jisc.ac.uk/full-guide/rdm-toolkit
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Hung Byers, A. (2011). Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute. https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation
Melero, R., & Hernández-San-Miguel, J. (2014). Acceso abierto a los datos de investigación, una vía hacia la colaboración científica. Revista española de Documentación Científica, 37(4), e066. https://doi.org/10.3989/redc.2014.4.1154
National Science Board. (2005). US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. NSF. https://www.nsf.gov/pubs/2005/nsb0540/
OpenAire. (2015). OpenAIRE Guidelines for Data Archives—OpenAIRE Guidelines documentation. https://guidelines.openaire.eu/en/latest/data/index.html
Peset, F., Aleixandre-Benavent, R., Blasco-Gil, Y., & Ferrer-Sapena, A. (2017). Datos abiertos de investigación. Camino recorrido y cuestiones pendientes. Anales de Documentación, 20(1). https://doi.org/10.6018/analesdoc.20.1.272101
Peset Mancebo, F., & González, L. (2017). Ciencia abierta y gestión de datos de investigaciónn (RDM). Trea.
Prentice, S. (2011). CEO Advisory: “Big Data” Equals Big Opportunity. https://www.gartner.com/en/documents/1614215/ceo-advisory-big-data-equals-big-opportunity
Strasser, C., Cook, R., Michener, W., & Budden, A. (2012). Primer on Data Management: What you always wanted to know. UC Office of the President: California Digital Library. https://doi.org/10.5060/D2251G48
Swan, A., & Brown, S. (2008). To share or not to share: Publication and quality assurance of research data outputs. A report commissioned by the Research Information Network [Project Report]. s.n. https://eprints.soton.ac.uk/266742/
Torres-Salinas, D., Robinson-García, N., & Cabezas-Clavijo, Á. (2012). Compartir los datos de investigación en ciencia: Introducción al data sharing. El Profesional de la Informacion, 21(2), 173–184. https://doi.org/10.3145/epi.2012.mar.08
UK Research and Innovation, UKRI. (2021). The importance of managing and sharing data [Research data management]. UK Data Service. https://ukdataservice.ac.uk/learning-hub/research-data-management/
Universidad de Alcalá. Biblioteca. (2021). Biblioguías: Datos de investigación: La gestión de datos y los PGD. https://uah-es.libguides.com/datos_investigacion/gestion
Universidad de Valladolid. Biblioteca. (2021). Biblioguías: Datos de Investigación: Ciclo de vida de los datos. https://biblioguias.uva.es/datos-investigacion/ciclo-vida