Computer Science

Computer Science

Data Leakage Machine Learning

Existen los casos en que después de entrenar un modelo con resultados del 99% de accuracy, fracasa vergonzosamente cuando se lo expone a un nuevo dataset. En varias oportunidades, la razón de esto se debe al data leakage. Demasiado bueno para ser verdad Esto ocurre cuando, de alguna manera, información …

Read More »

Web Scraping con Python y BeautifulSoup

web scraping python beautiful soup matplotlib panda

El web scraping es una buena habilidad para diferentes usos más allá de que se sea un científico de datos o no. Mucha información que reside en la web es útil para ser analizada y elaborada. Este post sobre web scraping con Python, está dividido en tres partes. • Extracción …

Read More »

Regresión Lineal – Variables Dummy

Las regresiones lineales multivariables, consisten en una variable dependiente y varias independientes. Por ejemplo: En este caso, x1, x2, x3, representan valores numéricos de la tabla pero D4 es una representación de la columna State que es Categórico. Para procesarlo, se genera una columna New York Dummy booleana que guarda …

Read More »

Notas sobre Python

Tipos de variables boolean, int, floats, complex, strings, tuples y lists type(expression) devuelve el tipo de variable, type(True):bool  –  True con mayúculas. Casting  float(2):2.0   int(1.1):1    int(‘1’):1    int(‘A’) Error    str(1):”1”    str(4.5):’4.5’    int(True):1  bool(0): False 25 // 6 –> 4 Integer division Strings Son objetos que tienen sus métodos propios. Name = …

Read More »

Notas sobre NetLogo

NetLogo tiene 3 tipos de objetos relevantes, patches (cuadrícula del fondo), turtles (objetos moviles) y links (relaciones entre turtles. Los patches y turtles tienen sus propiedades como coordenadas, color, shape, etc. Se pueden generar subset predeterminados con turtles-here (las que están sobre un patch determinado) o in-link-neighbors (los que están …

Read More »

Árboles de Decisión – Machine Learning

Los árboles de decisión intentan ofrecer una manera simple de catalogar donde a través de la menor cantidad de preguntas posibles, identificar un ítem con una clase determinada. Idealmente los atributos que conforman los nodos del árbol, deben generar partes “puras” donde dividan completamente las clases. Por ejemplo pensemos en …

Read More »

Random Forest – Arboles de Decisión Machine Learning

Random Forest es un algoritmo flexible de machine learning  que genera grandes resultados aún sin tunear los hyper-parameter. Es uno de los más usados y sirve tanto para clasificar como para regresiones. Random Forest es un algoritmo de aprendizaje supervisado, es decir, que aprende en función de datos anteriores de …

Read More »