Trabajes o no en la industria de la tecnología, es muy improbable que no hayas escuchado sobre la inteligencia artificial, la cual ha llegado a nuestras vidas al parecer para quedarse y hacernos en muchos ámbitos las cosas más fáciles. Dentro de este amplio mundo se tienen diferentes subáreas, y en relación con el análisis de datos, el aprendizaje automático (“Machine Learning”) es una herramienta poderosa, que nos permite generar modelos de predicción a partir de los datos.
En un principio generar modelos de aprendizaje automático, era una tarea titánica que implicaba conocer en detalle las matemáticas asociadas a cada uno de los modelos, pues solo de esta forma se podía generar la lógica que hiciese todos los cálculos necesarios, como los son por ejemplo las iteraciones sobre las diferentes ecuaciones, para ajustar los parámetros matemáticos asociados a las mismas.
Pero este proceso ha cambiado mucho, herramientas como Scikit-learn (Sklearn) han simplificado enormemente el proceso de construir y aplicar modelos predictivos. Con solo unas pocas líneas de código, podemos entrenar y evaluar modelos sofisticados para una variedad de tareas, como lo son la clasificación y regresión. Sin embargo, detrás de esta aparente simplicidad se esconde un complejo entramado matemático que es fundamental comprender para utilizar estas herramientas de manera efectiva.
La Caja Negra:
Sklearn y otras bibliotecas de aprendizaje automático ofrecen una “caja negra” que oculta gran parte de la complejidad subyacente. Esto es fantástico para aquellos que buscan resultados rápidos y no desean sumergirse en los detalles técnicos. Sin embargo, esta conveniencia puede ser engañosa. Al confiar únicamente en las funciones predefinidas, los usuarios corren el riesgo de aplicar modelos sin comprender completamente su funcionamiento interno y, lo que es más importante, su idoneidad para el problema en cuestión.
El Papel de las ciencias:
Para utilizar el aprendizaje automático de manera efectiva, es crucial comprender la matemática que subyace a los algoritmos. Esto implica tener una comprensión sólida de conceptos de álgebra lineal, cálculo y estadística. Estos conceptos permiten tomar decisiones informadas de que usar para determinado problema, lo que resulta en un uso más eficiente de los recursos, puesto que se puede llegar de manera más directa a los modelos correctos y a los hiperparámetros correctos, evitando largas jornadas de uso de cómputo entrenando modelos que desde su planteamiento matemático no son adecuados para una determinada tarea.
Ejemplos Concretos:
Imaginemos que queremos predecir los precios de las viviendas en función de diversas características, como el tamaño, la ubicación y el número de habitaciones. Podríamos usar un modelo de regresión lineal para esto, que asume una relación lineal entre las características y el precio. Sin embargo, si no comprendemos completamente cómo funciona la regresión lineal y sus supuestos, podríamos estar ignorando otras técnicas más adecuadas para nuestros datos, como la regresión polinómica o los métodos de aprendizaje no lineales, los cuales tienen una capacidad mayor para modelar un fenómeno más complejo.
El anterior sería un caso común, que se puede evitar con un mapeó general de las matemáticas asociadas a cada método aplicado.
Como segundo ejemplo tenemos un escenario donde estamos clasificando correos electrónicos como “spam” o “no spam” utilizando Naive Bayes. Una de las características que consideramos es la frecuencia de ciertas palabras en el cuerpo del correo electrónico. Supongamos que tenemos dos palabras: “oferta” y “descuento”.
En un conjunto de datos específico, encontramos que la presencia de la palabra “oferta” está fuertemente asociada con la palabra “descuento” en correos electrónicos de spam. Es decir, si un correo electrónico contiene la palabra “oferta”, es muy probable que también contenga la palabra “descuento”. Esta asociación puede deberse a que quienes se dedican a generar estos correos, suelen utilizar ambas palabras en conjunto para promocionar productos o servicios.
Sin embargo, Naive Bayes asume independencia condicional entre las características, lo que significa que considera que la presencia de una palabra es independiente de la presencia de otra palabra dada la etiqueta de clase (spam o no spam). En este caso, esa suposición de independencia sería incorrecta, ya que la presencia de la palabra “oferta” influye en la probabilidad de que también esté presente la palabra “descuento”.
Como resultado, Naive Bayes podría clasificar incorrectamente algunos correos electrónicos. Por ejemplo, podría clasificar erróneamente como “no spam” un correo electrónico que contiene la palabra “oferta” pero no “descuento”, ya que asume que la presencia de “oferta” no está relacionada con la presencia de “descuento”. Esto ilustra un escenario donde Naive Bayes puede no proporcionar una clasificación óptima debido a la falta de independencia condicional entre las características.
Elaborado el modelo ese conocimiento más profundo del algoritmo asociado, nos ayudaría a entender, resultado no esperados como los que se describieron.
Pero la ventaja que nos provee el conocimiento de estas ciencias va más allá de la mera elección de un modelo, en otras etapas del desarrollo de los mismo, como el ajuste de los hiperparámetros podemos sacar ventaja a la hora de planear la estrategia en la que optimizamos un modelo determinado, si sabemos cual es el significado matemático de la cada hiperparámetro, y por tanto su implicancia, es decir, sabremos a priori desde la teoría que hiperparámetros modificar para llegar a los resultados esperados.
Si bien las bibliotecas de aprendizaje automático como Sklearn brindan acceso rápido a poderosos algoritmos, es fundamental no depender exclusivamente de ellas. Comprender la matemática detrás de estos algoritmos nos permite seleccionar el modelo adecuado, interpretar los resultados de manera más significativa y, en última instancia, tomar decisiones más informadas en la resolución de problemas del mundo real. En un campo tan dinámico y en constante evolución como el aprendizaje automático, la comprensión matemática y estadística es el cimiento sobre el cual se construyen soluciones inteligentes y efectivas.