La ciencia contemporánea hace énfasis en la gestión y el análisis de datos. Después de décadas de desarrollo en tecnologías de la información, los investigadores pueden almacenar, estructurar y reutilizar grandes volúmenes de información. Según Kitchin (2014), vivimos en la «era de la dataficación» y por tanto nuestro aprendizaje lo conforman los algoritmos.
Los enfoques, disciplinas o técnicas que pueden integrar las metodologías dentro de procesos investigativos o tecnológicos, como la ciencia de datos, minería de datos, el machine learning y el análisis predictivo, para nombrar algunas, también pueden desentrañar relaciones complejas, probar hipótesis en una escala mucho más grande e incluso elaborar modelos más robustos. De acuerdo con Beoulieu et al. (2020), esta idea también transforma la epistemología de la ciencia, ya que el estadístico y el programador se dan la mano en el momento actual, y el teórico ayudan a que cada tema se amolde a esta combinación. Por ello, la administración de datos implicará, además, la reproducibilidad, fundamento en que debe cobijar la ciencia.
Gracias a la creación de herramientas como Zenodo, Dryad o Figshare, otros investigadores pueden tener acceso a los resultados y comprobar si son replicables. Borgman (2015) asegura que, cuando los datos están bien documentados y disponibles para todos, la transparencia científica mejora y aumenta la confianza en su validez. Sin embargo, todavía quedan retos en la curación, estandarización y permanencia de los datos.
La falta de calidad en los metadatos o la obsolescencia de la tecnología pueden poner trabas al análisis futuro. Tenopir et al. (2015) cuentan con que será necesario más inversión en formación y políticas institucionales que fomenten la cultura de los datos. Por ejemplo, las bases de datos clínicos anónimos han permitido los estudios de cohorte masivos y los modelos predictivos de enfermedades.
El autor Rajkomar et al. (2019) muestra cómo la aplicación del Deep Learning en las historias clínicas supone una mejora en el diagnóstico y el tratamiento personalizado en términos de precisión. Además de ello, la colaboración interdisciplinaria es un elemento clave en la era del Big Data. La combinación entre ingenieros, sociólogos, bioinformáticos y educadores ha permitido abordar problemas complejos desde distintas ópticas. Leonelli (2016) considera que los datos son objetos sociales que cobran sentido mediante la colaboración en la interpretación.
En síntesis, la transformación de la ciencia mediante la gestión y análisis de datos no es solamente técnica, sino cultural. Requiere una nueva alfabetización científica, habilidades computacionales y ética en la información. Lohr (2015) supone que el futuro de la inteligencia será determinado por nuestra capacidad de transformar la información en conocimiento. Por ello, aquellos que entiendan el lenguaje de los datos estarán más a la cabeza de la producción científica de las próximas décadas, una ciencia inclusiva y relevante para los grandes problemas del Siglo XXI.
Referencias
Beaulieu, A., Scharnhorst, A., & Wouters, P. (2020). Data practices in the sciences. MIT Press.
Borgman, C. L. (2015). Big data, little data, no data: Scholarship in the networked world. MIT Press.
Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. Sage.
Leonelli, S. (2016). Data-centric biology: A philosophical study. University of Chicago Press.
Lohr, S. (2015). Data-ism: The revolution transforming decision making, consumer behavior, and almost everything else. Harper Business.
Rajkomar, A., Dean, J., & Kohane, I. (2019). Machine learning in medicine. New England Journal of Medicine.
Tenopir, C., Dalton, E. D., Allard, S., et al. (2015). Changes in data sharing and data reuse practices and perceptions among scientists worldwide. PLOS ONE.