18/sep/2020 Seminario PISIS-UANL 2020 Asistencia : 30
Etiquetas: Minería de datos, ciencia de datos, Ex-alumnos.
|
Posgrado en Ingeniería de Sistemas |
SemblanzaM. C. José Anastacio Hernández SaldañaEl M. C. José Anastacio Hernández Saldaña, es actualmente catedrático de la Facultad de Ciencias Físico Matemáticas de la Universidad Autónoma de Nuevo León y también es desarrollador en SpectrumEffect. En 2012, se recibió de la Licenciatura en Ciencias Computacionales, de la Universidad Autónoma de Nuevo León. En el 2018, obtuvo el grado de Maestro en Ciencias en Ingeniería de Sistemas en el Posgrado de Ingeniería de Sistemas de la Universidad Autónoma de Nuevo León. |
La ciencia de datos es un campo interdisciplinario que unifica la estadística, la minería de datos y el aprendizaje automático (machine learning) con el objetivo principal de entender y analizar los fenómenos reales para la toma de decisiones. Los datos que se crean y procesan digitalmente por nuestra sociedad actual, han crecido en cuanto a volumen y variedad de una manera muy rápida, por lo que el rol que esta disciplina juega es clave para las distintas organizaciones. En esta charla el M. C. José Anastacio Hernández Saldaña compara cómo se lleva a cabo el proceso de investigación de ciencia de datos entre el ámbito académico y las empresas que manejan grandes volúmenes de datos.
En la conferencia el M. C. José Anastacio Hernández Saldaña, muestra que este proceso de investigación de manera general, se puede describir como una secuencia determinada por cuatro etapas: adquisición, almacenamiento, análisis de los datos y presentación de los resultados. En la primera etapa, en el mejor de los casos, la información está disponible en una base de datos y requiere mínimo procesamiento, también puede ser necesario adquirirlos por medio de algoritmos y encuestas. Esta actividad también implica trabajo en la limpieza de los datos. El almacenamiento engloba los distintos tipos de alojamiento para los mismos, que pueden ser bases de datos, archivos, o sistemas de archivos completos. En la siguiente etapa (análisis) se realizan pruebas estadísticas, predicciones o técnicas de minería de datos para encontrar, por ejemplo: conglomerados, regresiones estadísticas, pronósticos u otras características relevantes, incluso anomalías. La etapa de resultados tiene que ver con la presentación de la información que va encaminada a la generación de reportes con tablas y gráficos, así como sugerencias de acciones para la toma de decisiones. Desde el punto de vista académico, el proceso de investigación se enfoca a la obtención de un resultado, que se reporta en forma de documento o artículo científico. El proceso de adquisición de datos se realiza de forma manual, aunque puede haber casos en que existan procesos automatizados que la extraigan de algún repositorio. Una manera común de almacenar la información, es hacerlo en archivos con un formato específico (csv, txt, xml, etc.) y en los mejores casos, tener una base de datos única. La etapa del análisis se centra en hacer las pruebas estadísticas correspondientes y hacer uso de algoritmos implementados. Cabe destacar que este proceso es supervisado en todo momento por el encargado de la investigación. Por otra parte, cuando el proceso de investigación es llevado a cabo en las empresas que manejan grandes volúmenes de datos, las características cambian. El proceso se realiza en línea y se pueden ejecutar procesos de forma paralela. Para la adquisición de datos se hace necesaria la automatización, realizada por múltiples agentes. En el almacenamiento se utilizan bases de datos distribuidas donde la información puede estar presente en varios lugares. En el análisis de datos es común la implementación de algoritmos online, que pueden ayudar a proporcionar resultados más rápido que ayuden a la toma de decisión, es decir, que la información se está actualizando constantemente. También se usan bases de datos distribuidas para mejorar el rendimiento en el análisis, con esto el trabajo de procesamiento se divide para ser analizada por varios ordenadores al mismo tiempo. Para la presentación de los datos se busca tener un sistema de consulta en tiempo real, a partir del cual se puedan generar documentos, sugerir acciones y de ser posible, que se automatice la toma de decisión.
Cuando el proceso de investigación necesita repetirse, como en el caso de las empresas, es conveniente tener conocimientos de sistemas de cómputo distribuidos, bases de datos, algoritmos en línea/paralelos y frameworks de sistema de archivos, para lograr una mayor eficiencia en el análisis de datos. Por otro lado, aunque en las empresas se tengan generalmente mayores recursos que en la academia, las reducciones en tiempos pueden no ser las esperadas debido a la complejidad de los algoritmos.
| Contáctanos: |
| Universidad Autónoma de Nuevo León |
| Facultad de Ingeniería Mecánica y Eléctrica |
| Posgrado de Ingeniería en Sistemas |
|
Dirección:
Universidad Autónoma de Nuevo León, Ciudad Universitaria, Pedro de Alba s/n San Nicolás de los Garza, Nuevo León C.P. 66451 |