Dr. Jesús Igor Heberto Barahona Torres

El doctor Jesús Igor Heberto Barahona Torres es Licenciado en Administración de empresas y Maestro en Ciencias por el Tecnológico de Monterrey, cuenta con un Doctorado en Estadística e Investigación de Operaciones por la Universidad Politécnica de Cataluña, realizó visitas como posdoctorante e investigador visitante en la Universidad de Manchester. Actualmente es investigador asociado C en la unidad de Cuernavaca del Instituto de Matemáticas de la UNAM.

   

Evolución y uso del vocabulario de la ciencia de datos. ¿Cuánto hemos cambiado en 13 años?

  25/marzo/2022  Seminario PISIS-UANL 2022      Asistencia : *

Introducción

En esta charla se presentan datos sobre la evolución y uso del vocabulario de la ciencia de datos en los últimos años mediante análisis estadístico, con la idea de proponer un vocabulario distintivo y temas relevantes de dicha área.

Se enfatiza el uso del aprendizaje máquina para ese análisis, ya que es un algoritmo matemático que combinado con herramientas computacionales nos permite repetir un patrón de datos por medio de aprendizaje.

Resumen

La charla se inicia recordando la vida del británico Alan Turing, considerado como el padre del aprendizaje de máquina, encargado de decodificar códigos nazis durante la segunda guerra mundial.

De acuerdo con resultados de la base de datos Scopus, el aprendizaje de máquina ha tenido un aumento en la publicación científica de 200 artículos en el 2014 hasta 3762 artículos en el 2021. El total de artículos es de 12,787, las palabras que aparecen con mayor frecuencia en los artículos de aprendizaje máquina son; learning, analysis, model, paper, methods, machine, study, models, time, development, performance, system, network, entre otras más. Esta información nos indica que las primeras seis palabras forman parte del 10% del volumen total del vocabulario. En cuanto al tipo de publicación, el 50% del total de las publicaciones corresponden a memorias de congresos.

El doctor Igor nos muestra la construcción de una matriz documentos-palabras (document text-matrix) en las que se pueden agrupar las palabras por atributos. Posteriormente aplica un análisis de componentes principales para determinar las coordenadas X y Y (primer y segundo componente), utilizadas para mapear las palabras que tienen una inercia o valor propio más grande dentro de un gráfico.

El gráfico que se forma con las palabras de mayor relevancia nos muestra visualmente que palabras con una cercanía se utilizan en contextos parecidos y que palabras con lejanía están usadas en contextos semánticos diferentes. Como parte de sus resultados nos mostró una nube de palabras, en la que podemos observar agrupaciones por tiempo en tres periodos: surgimiento (2009-2012); crecimiento, auge con big data y retos computacionales (2013-2018), y por último la etapa de auge de la ciencia de datos (2019-2022).

Conclusiones

El estudio de la ciencia de datos ha ido en aumento en los últimos años y actualmente vivimos un periodo de crecimiento que durará por lo menos dos o tres años más. El método presentado de análisis de textos con componentes principales (técnicas estadísticas multivariadas) es una herramienta útil para analizar conceptos en una nube de palabras y atributos como autores y años. El método mostrado ha demostrado ser confiable para analizar una gran cantidad de datos, por lo que tiene aplicaciones (entre otras) de análisis de discurso.

Reseñas anteriores