Machine Learning

Support Vector Machine Learning – SVM

El algoritmo SVM (Support Vector Machine) es un método de aprendizaje supervisado utilizado para la clasificación y regresión de datos. El objetivo principal de SVM es encontrar el hiperplano de decisión que mejor separe las clases en un espacio de características de alta dimensión. El hiperplano de decisión es un …

Read More »

Análisis de Componentes Principales – PCA – Machine Learning

Esta técnica tiene como finalidad encontrar una transformación de datos que permita reducir la dimensión del problema eliminando información redundante y a la vez explicar la mayor varianza de los datos para poder utilizarlos con distintas finalidades. Permitirá eventualmente visualizar la información multidimensional y explorar variables latentes. Una recta define …

Read More »

Data Leakage Machine Learning

Existen los casos en que después de entrenar un modelo con resultados del 99% de accuracy, fracasa vergonzosamente cuando se lo expone a un nuevo dataset. En varias oportunidades, la razón de esto se debe al data leakage. Demasiado bueno para ser verdad Esto ocurre cuando, de alguna manera, información …

Read More »

Regresión Lineal – Variables Dummy

Las regresiones lineales multivariables, consisten en una variable dependiente y varias independientes. Por ejemplo: En este caso, x1, x2, x3, representan valores numéricos de la tabla pero D4 es una representación de la columna State que es Categórico. Para procesarlo, se genera una columna New York Dummy booleana que guarda …

Read More »

Árboles de Decisión – Machine Learning

Los árboles de decisión intentan ofrecer una manera simple de catalogar donde a través de la menor cantidad de preguntas posibles, identificar un ítem con una clase determinada. Idealmente los atributos que conforman los nodos del árbol, deben generar partes “puras” donde dividan completamente las clases. Por ejemplo pensemos en …

Read More »

Random Forest – Arboles de Decisión Machine Learning

Random Forest es un algoritmo flexible de machine learning  que genera grandes resultados aún sin tunear los hyper-parameter. Es uno de los más usados y sirve tanto para clasificar como para regresiones. Random Forest es un algoritmo de aprendizaje supervisado, es decir, que aprende en función de datos anteriores de …

Read More »