Dr. Mario Alberto Diaz Torres

El doctor Mario Alberto Diaz Torres cuenta con una maestría en probabilidad y estadística por el Centro de Investigación en Matemáticas (CIMAT) en México. Además, obtuvo su grado de doctor en matemáticas y estadística por la Queen's University en Canadá, y un doctorado por la Arizona State University en conjunto con la Universidad de Harvard donde trabajó en la teoría matemática y estadística de la privacidad de datos. También cuenta con un posdoctorado en el CIMAT donde trabajó en la teoría matemática y estadística de la privacidad de datos y matrices aleatorias. Actualmente es investigador asociado en el Instituto de investigaciones en matemáticas aplicadas y en sistema de la UNAM. Sus intereses de investigación son privacidad de datos, teoría de la información y aprendizaje máquina teórico.

   

Privacidad desde una perspectiva de Teoría de la Información

  04/marzo/2022  Seminario PISIS-UANL 2022      Asistencia : *

Introducción

Se tiene una muestra de los datos del censo de Estados Unidos de 1994, y se quiere diseñar un clasificador que tomará algunos atributos de personas como edad, educación, ocupación y género; para predecir la categoría de ingresos (mencionada como income bracket) menor de 50,000 mil dólares al año y más de 50,000 mil al año. Este es un problema central en machine learning y en esta charla, se presenta una metodología para abordar el problema.

Resumen

Antes de empezar las charla se nos comparten algunos conceptos necesarios para entender la metodología: la exactitud del clasificador, que es una medida empírica de la exactitud de predecir si el sujeto cae en el ingreso esperado. La auditación del modelo es un proceso que revela sesgo contra algún grupo y puede ser detectado por inspección visual, experimento contrafactual e inspección de coeficientes (revisar los coeficientes de la regresión lineal para cada variable e identificar aquel que muestra una desproporción con los demás coeficientes). Clasificación de equidad es una manera rápida de lidiar con un problema de equidad y consiste en eliminar el coeficiente que muestra un sesgo. Costo de equidad es la modificación a la equidad la cual tiene típicamente un costo a la exactitud del modelo de predicción.
Como práctica estándar, antes de iniciar el proceso de aprendizaje es necesario preprocesar los datos obtenidos para su mejor tratamiento en la metodología. El atributo de edad el cual está registrado en el rango 17 a 90, normalizamos y aplicamos una transformación de tal manera que tenemos ahora un rango de 0 a 1. El atributo educación tiene 16 posibles valores yendo desde preescolar hasta doctorado denotado como x15 donde x es un número comprendido entre el rango (0,...,15). El atributo ocupación es un vector de 14 diferentes ocupaciones, cada uno tratado como un atributo binario, por ejemplo (1,0,0,...,0) o (0,1,...,0,0) o (0,0,...,0,1). El atributo género es una variable binaria en el que se asigna 1 si el individuo es mujer y 0 si es hombre.
La función de clasificación h la obtenemos por un ajuste de mínimos cuadrados, Se define la función h la cual mapea de un vector de 16 posibles respuestas a un conjunto {1,0} donde 1 es la predicción de que un individuo tenga un ingreso de mas de 50 mil dólares y 0 de otra manera.

Conclusiones

En esta plática se logró dar a conocer uno de los problemas centrales en machine learning, el cual consiste en cómo poder medir y destruir una base de datos por relación entre diferentes variables. Las aplicaciones mencionadas de este trabajo van relacionadas directamente al mundo financiero y legal, en donde tenemos como ejemplos los modelos matemáticos que deciden aprobar o rechazar un crédito bancario. Otro ejemplo que se menciona es que puede ser usado para calcular qué tan probable es que un ex-convicto reincida por un crimen, siendo un dato importante en estos modelos las métricas que se utilizan para la exactitud de los modelos.
Algunos inconvenientes que surgieron dentro de esta investigación fueron encontrar sesgo para ciertos grupos de la base de datos, los cuales se resolvieron mediante auditaciones del modelo. Finalmente se estableció que no es suficiente eliminar solo una variable, ya que algunas variables del atributo están muy correlacionadas,por lo tanto se puede utilizar un atributo parcialmente, en el que solo se puede perder un porcentaje de exactitud para estar en los estándares requeridos.

Enlaces relevantes

Reseñas anteriores