✍¿QUÉ ES EL SESGO DE DATOS? | DOCENTES 2.0

La capacidad para generar un conjunto de datos actualmente está influenciada tanto por la diversidad de los datos como por la manera en que se adiestra el modelo. Los sistemas de inteligencia artificial pueden perfeccionar las actividades vertiginosamente, sin embargo, eso no significa que los resultados o proceso sean perfectos. Por consiguiente, si el conglomerado de datos dedicados al aprendizaje automático contienen datos sesgados, es posible que el sistema revele el mismo sesgo cuando evalúa en la práctica. El sesgo de datos en el aprendizaje automático es un tipo de error en el que ciertos elementos de un conjunto de datos están más ponderados y/o representados que otros. Un conjunto de datos sesgado no representa con precisión el caso de uso de un modelo, lo que genera resultados sesgados, bajos niveles de precisión y errores analíticos.

En la actualidad, existen investigaciones las cuales intentan comprender cuándo y cómo un modelo de aprendizaje automático este acto para superar los sesgos en los conjuntos de datos. Hoy en día, se está utilizando la neurociencia para analizar cómo los datos de ensayo perjudican la red neuronal artificial al no reconocer objetos que nunca ha visto. Una red neuronal es un arquetipo de aprendizaje automático que emula al cerebro humano a través de sus nodos interconectados que procesan datos.

Los resultados han demostrado que la multiplicidad en los datos de ensayos poseen un dominio en la amplitud de una red neuronal para dominar los sesgos, aunque, la complejidad de los datos pueda atenuar la productividad de la red. Además, la manera en que se prepara una red neuronal ocupa un rol importante en la competencia para superar un conjunto de datos sesgado. Hoy, ya es posible determinar que una red neuronal puede superar los sesgos de un conjunto de dato. No obstante, se debe tener en cuenta la diversidad de datos. El hombre tiene que dejar de pensar en solo la recopilación de datos, debe ir más allá. Por ello, el autor Boix señala que se debe tener mucho cuidado con la forma en que diseñamos los conjuntos de datos.

En síntesis, resolver el sesgo de datos en la tecnología con la inteligencia artificial significa primero determinar dónde está. Solo después de saber dónde existe un sesgo, puede tomar las medidas necesarias para remediarlo, ya sea abordando la falta de datos o mejorando sus procesos de anotación.

 

 


Ruth Mujica

Ruth M. Mujica-Sequera

Autor del Blog Docentes 2.0: Dra. Ruth Mujica-Sequera, es venezolana y está residenciada en el Medio Oriente desde el año 2011. Fundadora y CEO de Docentes 2.0 y la Revista Tecnológica-Educativa Docentes 2.0. Ingeniero de Sistema con Doctorado en Tecnología Educativa y Posdoctorado en Ciencias. La Dra. Ruth Mujica-Sequera es la Embajadora Latinoamericana de la Tecnología Educativa - Embajadora Nacional de Venezuela reconocida por ReviewerCredits