Organización de Datos 75.06/95.58
Bienvenidos a la página oficial del curso de la materia organización de datos (75.06/95.58) encabezado por Juan Manuel Rodriguez.
Descripción del curso
El propósito principal de este curso es enseñar y promover técnicas para el correcto análisis, visualización, procesamiento y entendimiento de diversos conjuntos de datos, incluido los llamados conjuntos de grandes datos (Big Data), utilizando para ello tecnologías de punta y métodos en el estado del arte. Durante el curso se explicará de forma teórica y práctica el funcionamiento e implementación de diversos modelos: predictivos, de clasificación y de agrupamiento. Se verán desde las técnicas más sencillas y antiguas hasta las más modernas y complejas.
Equipo
Docentes
Colaboradores
Temario
Objetivos:
Proporcionar los conceptos, las herramientas y la intuición necesaria para implementar programas capaces de aprender a partir de datos. Se explican una gran cantidad de técnicas, desde las más sencillas como regresión lineal hasta las más avanzadas como lo son las redes de aprendizaje profundo o el algoritmo XGBoost. Las herramientas utilizadas para lograr estos objetivos se encuentran entre las más utilizadas en la industria y que forman parte de la vanguardia tecnológica dentro de la ciencia de datos.
Programa sintético:
Utilización de herramientas de visualización de datos; ingeniería de características; funcionamiento de modelos tradicionales de aprendizaje automático: métodos de clasificación, regresión y agrupamiento. Redes neuronales artificiales: superficiales y profundas. Procesamiento de lenguaje natural. Procesamiento de imágenes.
Programa analítico:
-
Unidad 1 – Introducción a la Ciencia de datos: Conceptos básicos: conjuntos de datos, tipos de variables, tipos de problemas, tipos de modelos, valores atípicos.
-
Unidad 2 – Visualización de datos: Uso de las bibliotecas Pandas y Seaborn, revisión de los distintos tipos de gráficos disponibles y cómo analizarlos. Posibles usos.
-
Unidad 3 – Ingeniería de características: Limpieza de datos, detección de valores atípicos, normalización de datos, balanceo, etc. Métricas.
-
Unidad 4 – Árboles de decisión: algoritmos ID3, C4.5 y Random Forest
-
Unidad 5 – Procesamiento de lenguaje natural: Aprendizaje bayesiano, clasificación de textos, análisis de sentimientos y extracción de información.
-
Unidad 6 – Ensamble de modelos: AdaBoost, Gradient Boosting, XGBoost, ensambles híbridos.
-
Unidad 7 – Redes neuronales superficiales: Perceptrón simple. Perceptrón multicapa, Backpropagation, redes SOM (Kohonen).
-
Unidad 8 – Redes de aprendizaje profundo: Autoencoders, redes convolucionales, redes recurrentes de tensores, redes GAN. Introducción a Tensorflow.
-
Unidad 9 – Reducción de la dimensionalidad: técnicas PCA, ISOMap, tSNE, MDS y PcoA
-
Unidad 10 – Técnicas adicionales: K-nearest neighbors, Support Vector Machines (SVM) y Algoritmos genéricos.