El M.C. Dagoberto Quevedo Orozco es graduado de Ingeniero en Sistemas Computacionales por el Instituto Tecnológico de Tepic. Obtuvo el grado de M.C. en Ingeniería de Sistemas por la Universidad Autónoma de Nuevo León. Trabaja como científico de datos en el Banco Central de Chile. Sus intereses de investigación se centran en la optimización combinatoria y el diseño de algoritmos.
05/marzo/2021 Seminario PISIS-UANL 2021 Asistencia : 27
Los bancos están en constante búsqueda de fuentes de información para realizar mejores análisis económicos y tomar mejores decisiones. Algunos datos económicos relevantes pueden proceder de facturas electrónicas, las cuales son obtenidas diariamente, permitiendo una medición en tiempo real de la actividad económica. En esta ocasión, el M.C. Dagoberto Quevedo proporciona un análisis para el Banco Central de Chile, el cual se enfoca en la estandarización de documentos tributarios electrónicos (DTE) para posteriormente ser procesada y proporcionar valor para una toma de decisiones más conveniente. Para lograr dicha estandarización, se busca que la documentación de productos y servicios (glosas) que recibe el banco se clasifiquen bajo un código único de producto (CUP) de 270 niveles.
Para dar solución a la problemática se propuso un algoritmo de clasificación que soporta todos los casos de uso de texto de la descripción de los productos. Inicialmente, se clasificaron las glosas manualmente, posteriormente se ajustaron modelos de clasificación supervisados para extrapolar el aprendizaje al resto de las glosas de los DTE. El modelo de clasificación utilizado es de texto jerárquico (HTC), donde el algoritmo se entrena en cada nivel de agregación, en este caso en cada CUP. Para la construcción de los submodelos de la jerarquía se usó la librería sklearn del lenguaje de programación Python. Los datos fueron revisados con indicadores económicos líderes, tal como el Indicador Mensual de Actividad Económica. Además, se utilizaron alrededor de 143 000 DTEs de diferentes sectores económicos como muestra de entrenamiento.Una estrategia para el procesamiento de los resultados fue procesamiento en paralelo y proyección con 64 cores.
Los principales inconvenientes que se encontraron en esta investigación fueron que al aplicar al problema de la mochila cuadrática los coeficientes de acoplamiento negativos, se tiene una función objetivo no convexa en el modelo de Isin haciéndose un problema muy difícil de resolver de manera exacta. Para el problema de muestreo, el principal inconveniente es en las zonas de convergencia (por ejemplo: máximos de una función objetivo) que quedan separadas y estos métodos se quedan “atorados” en una región de máximos locales por mucho tiempo. Por último, se indica que el uso de modelos de aprendizaje-máquina es recomendable ya que al conocer la estructura de los datos presenta buenos resultados de estos problemas complejos.
El algoritmo implementado presentó buenos resultados con un buen acercamiento a los indicadores económicos líderes de Chile, los cuales tienen su propia metodología de cálculo. Este trabajo es pionero en el uso de DTEs para generar el insumo requerido por el Banco Central de Chile para realizar sus análisis y predicciones. Se logró realizar la estandarización del texto a través de su normalización, procesamiento y clasificación jerárquica. Como trabajo a futuro se planea implementar vectorizaciones de texto más robustas y modelos de solución basados en redes neuronales