CAPÍTULO F: EN EXPLOTACION DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO

ARTÍCULO 501. Crear la Maestría en Explotación de Datos y Descubrimiento de Conocimiento de las Facultades de Ciencias Exactas y Naturales y de Ingeniería.1

ARTÍCULO 502. Aprobar la reglamentación, el plan de estudios y los contenidos mínimos que forman parte del presente Capítulo.2

PLAN DE ESTUDIOS3

I. INSERCIÓN INSTITUCIONAL DEL POSGRADO

Denominación del posgrado:

Maestría en Explotación de Datos y Descubrimiento de Conocimiento 

Denominación del Título que otorga:

Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento

Unidades Académicas de las que depende el posgrado:

Facultad de Ciencias Exactas y Naturales y Facultad de Ingeniería

Sedes de desarrollo de las actividades académicas del posgrado:

Facultad de Ciencias Exactas y Naturales – Facultad de Ingeniería (sedes Paseo Colón y Las Heras)

Sede administrativa del posgrado:

Facultad de Ciencias Exactas y Naturales

Resolución/es de CD de la/s Unidad/es Académica/s de aprobación del Proyecto de posgrado:

Resolución (CD) Nros. 1625/13 (Facultad de Ciencias Exactas y Naturales) y 5385/13 (Facultad de Ingeniería)

II. FUNDAMENTACIÓN DEL POSGRADO

A. Antecedentes

En los últimos años se han acumulado enormes cantidades de datos en todas las organizaciones y esta tendencia continúa a un ritmo acelerado. Esto ha sido posible dado el amplio uso de sistemas computarizados, nuevas técnicas de captura de datos, el empleo de códigos de barra, los lectores de caracteres ópticos, las tarjetas magnéticas, etc. y por el avance en la tecnología de almacenamiento y su consiguiente reducción de costos. El sentido de conservar todos esos datos surge del convencimiento de que los mismos representan un importante activo para cualquier organización que los posea, en la medida en que puedan ser transformados en información útil.

Se estima que, del análisis de esos datos, pueden surgir ventajas competitivas o novedosas soluciones a antiguos problemas.

“Data Mining”, también referenciado como Explotación de datos y Descubrimiento de Conocimiento (Knowledge Discovery in Databases o KDD), ha sido definida como el proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil.

El crecimiento explosivo de las bases de datos y el aún mayor de la Internet, nos urge en la búsqueda de técnicas y herramientas que, de manera automática y eficiente, generen información a partir de los datos almacenados. Este es el objetivo de las técnicas de Explotación de Datos y Descubrimiento de Conocimiento.

En particular, estas técnicas han adquirido enorme importancia en áreas tales como estrategias de marketing, soporte de decisiones, planeamiento financiero y el análisis de datos científicos, entre otras.

El origen de la Explotación de Datos y Descubrimiento de Conocimiento se puede encontrar, básicamente, en la intersección de áreas del conocimiento tales como la Estadística, la Inteligencia Artificial (Machine Learning) y las Bases de Datos.

Asimismo, gran cantidad de organizaciones, tanto públicas como privadas, con interés comercial o científico, han acumulado enormes cantidades de datos, estimando lograr ventajas competitivas o novedosas soluciones como resultado de la explotación de los mismos.

En resumen, la Explotación de Datos y Descubrimiento de Conocimiento es un conjunto de técnicas de extracción de modelos, patrones, recurrencias, anomalías y otras estructuras de significación estadística desde grandes bases de datos y cuyo interés radica en el hecho que los datos se han acumulado en forma exponencial mientras que el número de analistas lo ha hecho en forma lineal.

Por otra parte, visto el tiempo transcurrido desde la creación de esta maestría, la Comisión Asesora ha considerado oportuno actualizar los contenidos académicos de manera de ofrecer un plan de estudios que responda tanto a los avances, cambios y novedades surgidos en el ámbito de la explotación de datos y descubrimiento de conocimiento, cuanto a las necesidades surgidas en el ambiente de aplicación de estas disciplinas, en nuestro medio empresarial e industrial.

B. Justificación

Este posgrado fue creado en el año 2001 para cubrir esa área del conocimiento puesto que no existían en ese momento carreras similares ni en la Universidad de Buenos Aires ni en ninguna otra institución académica. Gracias a los docentes/investigadores  de la Facultad de Ciencias Exactas y Naturales y de la Facultad de Ingeniería, y ante la necesidad planteada por  instituciones públicas y privadas  de optimizar sus Bases de Datos y aprovechar la información acumulada es que se proyecta la creación de la Maestría en Explotación de Datos y Descubrimiento de Conocimiento.

La presente maestría ha sido diseñada de acuerdo con lo establecido en el Capítulo B CÓDIGO.UBA I-20.

III. OBJETIVOS DEL POSGRADO

Objetivo general:

Formar recursos humanos altamente capacitados en los fundamentos y el conocimiento práctico, que permitan tanto la aplicación, de manera creativa y rigurosa de los métodos de Explotación de Datos y Descubrimiento de Conocimiento en un marco profesional multidisciplinario y con conceptos e instrumentos avanzados, como la producción de conocimientos científicamente validados en el ámbito de dicha disciplina.

Objetivos específicos:

  • Generar y mantener actividades de desarrollo y transferencia tecnológica en el área de la Explotación de Datos y Descubrimiento de Conocimiento.
  • Contribuir a la generación y actualización permanente de recursos humanos tanto para el ámbito universitario como el profesional, en la especialidad.
  • Integrar aprendizajes realizados en el proceso formativo y profundizar conocimientos en un campo profesional con perspectivas innovadoras en la profesión.

IV. PERFIL DEL EGRESADO

El magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento será un graduado capaz de:

  • aplicar las técnicas y métodos de Explotación de Datos y Descubrimiento de Conocimiento,
  • construir productos de software que implementen dichos métodos,
  • evaluar y producir nuevos modelos así como generar conocimientos que enriquezcan las técnicas, métodos y herramientas que se utilizan en la disciplina,
  • gerenciar proyectos de explotación de datos y descubrimiento de conocimiento en el ámbito de la industria, del comercio, del gobierno.

V. ORGANIZACIÓN DEL POSGRADO

a. Institucional

La Maestría en Explotación de Datos y Descubrimiento de Conocimiento será organizada y coordinada por una Comisión de Maestría constituida por CUATRO (4) representantes titulares, DOS (2) por cada una de las Facultades intervinientes y CUATRO (4) miembros suplentes; DOS (4) por cada una de las Facultades.

Los miembros representantes de cada una de las Facultades serán designados por los respectivos Consejos Directivos, durarán CUATRO (4) años en sus funciones, pudiendo ser renovada automáticamente su designación.

Las autoridades de la Maestría deberán tener título de Magister, Doctor o mérito equivalente para ser designados.

Funciones de la Comisión de Maestría:

1) Determinar el número máximo de alumnos a inscribirse en la Maestría en cada período.

2) Evaluar los antecedentes de los aspirantes y requerir de éstos documentación adicional si se considerara pertinente.

3) Determinar los cursos previos de nivelación que deberán cursar y aprobar los aspirantes de la Maestría, y las Unidades Académicas en las que deberán cumplimentar dichos cursos.

4) Resolver las solicitudes de readmisión a la Maestría, en aquellos casos de pérdida de la condición de alumno regular, de acuerdo con la Reglamentación vigente en la Facultad sede administrativa.

5) Implementar las vías de acción que ayuden al financiamiento de la Maestría, a través de convenios con instituciones nacionales o internacionales, estatales o privadas, los que serán elevados al Consejo Directivo para su consideración.

6) Proponer al Consejo Directivo de la Facultad sede administrativa a través de la Dirección de la Maestría:

a. La aceptación o rechazo de los aspirantes inscriptos.

b. La aprobación por equivalencia de materias de posgrado que los estudiantes hayan cursado fuera del ámbito de la Maestría. En ningún caso el total de cursos aprobados por equivalencia podrá exceder el CINCUENTA POR CIENTO (50%) del total de las materias, tanto las obligatorias como las optativas o electivas, de la maestría donde el estudiante se haya inscripto.

c. Las modificaciones del Plan de estudios, que serán posteriormente elevadas al Consejo Superior de la Universidad.

d. La información y los programas de las asignaturas, seminarios o talleres que formarán parte de la currícula de la Maestría.

e. La designación de los docentes de la Maestría.

f. Los aranceles de la Maestría.

g. Los aranceles de cada asignatura  o seminario que se realice en el marco de la Maestría, cuando sean cursados por graduados no inscriptos como alumnos regulares.

h. La reducción o exención de los aranceles a aquellos alumnos cuyos antecedentes así lo justifiquen.

i. La designación de los Directores de Tesis.

j. La aprobación de los planes de Tesis.

k. La designación de los Jurados de Tesis.

Dirección de la Maestría:

La Dirección de la Maestría será ejercida por un Director y un Codirector quienes tendrán a su cargo las tareas de organización, coordinación y gestión que la Maestría demande. El Director de la Maestría deberá pertenecer a la Facultad sede administrativa y el Codirector pertenecerá a la otra Facultad interviniente.

El Director y el Codirector de la Maestría serán designados, a propuesta de la Comisión de Maestría, por el Consejo Directivo de la Facultad sede administrativa, durarán DOS (2) años en sus funciones, pudiendo ser renovada automáticamente su designación.

En los períodos de ausencia del Director de la Maestría, el Codirector de la Maestría asumirá las tareas de Dirección de la misma.

Funciones del Director de la Maestría:

  • Coordinar el desarrollo de las asignaturas.
  • Planificar la selección de docentes.
  • Supervisar el desarrollo académico de la maestría.
  • Conducir la gestión administrativa de la maestría.
  • Responder a las consultas académicas de los aspirantes.
  • Elevar al Consejo Directivo las propuestas de la Comisión de Maestría (ver ítem 6, del párrafo Funciones de la Comisión de Maestría).
  • Implementar y asegurar los procedimientos para que en la Facultad Sede administrativa se registren las Actas de examen de todas las asignaturas que conforman el plan de estudios.
  • Representar a la Maestría ante cualquier organismo o institución que requiera su intervención.

b. Académica

La Maestría en Explotación de Datos y Descubrimiento de Conocimiento exige al alumno, cumplimentar como mínimo, un total de SEISCIENTAS SETENTA Y DOS (672) horas de clases presenciales, CIENTO SESENTA (160) horas de Talleres y Seminarios y la realización y defensa pública de una Tesis de maestría.

Total de carga horaria: OCHOCIENTAS TREINTA Y DOS (832) horas.

PLAN DE ESTUDIOS

El Plan de estudio de la Maestría es de tipo semiestructurado. Las SEISCIENTAS SETENTA Y DOS (672) horas de clases presenciales se dividen en dos ciclos:

Ciclo de asignaturas obligatorias: con CUATROCIENTAS DIECISEIS (416) horas de clases

Ciclo de asignaturas electivas: con DOSCIENTAS CINCUENTA Y SEIS (256) horas de clases

Desarrollo de Tesis: con aprobación y defensa pública

Cuadro correspondiente al Plan de estudios

CONTENIDOS MÍNIMOS DE LAS ASIGNATURAS Y TALLERES OBLIGATORIOS

Aprendizaje automático

Introducción conceptual al aprendizaje automático. Introducción inductiva al procesamiento no tradicional de datos. Estructura de sistemas de aprendizaje y notación estándar. Métodos inferenciales no deductivos, generalización y noción de orden parcial. Algoritmos: Espacio de Versiones, FIND-S y Eliminación de Candidatos. Inducción de árboles de decisión. Algoritmo ID3 y derivados. Sesgo, ruido, sobre-especificación, sobre-generalización y poda. Aprendizaje como búsqueda heurística. Algoritmo STAR.  Indicadores de performance y error. Aprendizaje basado en instancias y aprendizaje Bayesiano. Aprendizaje no supervisado. Clustering. Algoritmos aglomerativos y de partición. Introducción al Text Mining, aproximaciones NLP y ML. Combinación de múltiples modelos: Votación, Bagging, Boosting. Otros modelos de aprendizaje: SVM, Vere, Genéticos, Redes Neuronales, Analíticos, con teorías de dominio, basados en explicaciones, etc.  Nuevas tendencias en Aprendizaje Automático. 

Análisis inteligente de datos (AID)

Análisis exploratorio y confirmatorio. Reseña histórica. Revisión de métodos exploratorios; tablas, gráficos, Caras de Chernov. Gráficos de estrellas. Gráficos de Rayos Sol. Gráficos de Andrews. Diagramas de tallo y hoja, box-plot, análisis de normalidad. Técnicas descriptivas multidimensionales. Análisis en componentes principales. Análisis factorial de correspondencias. Métodos de clasificación y agrupamiento. Clasificación Jerárquica. K-medias. Relación entre Análisis factorial y Clasificación. Árboles de decisión. Métodos de segmentación. Análisis discriminante.

Data mining

Presentación General de todos los algoritmos de data mining. Proceso de Descubrimiento del Conocimiento. Tipos de datos. Mecanismos de limpieza de los mismos. Reglas de asociación.  Patrones secuenciales. Aspectos temporales de las reglas de asociación. Otras aplicaciones de las reglas de asociación.

Enfoque estadístico del aprendizaje y descubrimiento

Enfoques de la inferencia estadística. Estimación por Máxima Verosimilitud. Inferencia Bayesiana. Regresión lineal simple y múltiple. Modelo de Regresión logística. Comparación de modelos y algoritmos. Evaluación y selección de modelos. Redes bayesianas e inferencia causal. Naive Bayes. Nociones de muestreo y remuestreo. Validación cruzada. Bootstrap, Jacknife, y métodos relacionados. Algoritmo  EM. Algoritmos de Monte Carlo: Gibbs sampling.

Data mining y knowledge discovery en economía y finanzas

Análisis de datos. Metodologías CRISP, Six sigma y SEMMA. Comparación de modelos. Nociones de Database Marketing. DataSets  desbalanceados. Overfitting. Componente temporal en los modelos. Visualización de datos.

Data mining y knowledge discovery en ciencia y tecnología

Panorama de minería de datos y descubrimiento del conocimiento en ciencia y tecnología. Aplicaciones en astronomía, química y biología. Introducción a los sistemas de información geográficos. Aplicación de data mining en el analisis de redes de interacción y redes sociales.

Taller de tesis I

Objeto de la comunicación científica. Tipos de documentos. Tesis. Partes o capítulos de una tesis. Figuras y Tablas. Revisión de manuscritos. Evaluación de manuscritos. Presentaciones orales. Ética y fraude. Propiedad intelectual. Práctica intensiva en todos los temas anteriores.

Taller de tesis II

Reconocimiento del marco teórico y del campo delimitado por los alumnos. Naturaleza epistemológica de las hipótesis que componen la investigación científica. Introducción a la metodología científica. Componentes del proceso de investigación científica. Estrategias metodológicas realizadas a los fines de contrastar las hipótesis desarrolladas. Delimitación del tema. Fases en el proceso de investigación. Diferentes alternativas de generación de las hipótesis. Especificidades de Data Mining respecto de la propuesta de un origen de las hipótesis a partir de los datos. Análisis del status epistemológico de Data Mining a la luz de los diferentes tipos de empirismos desarrollados. Análisis final de la elaboración de los estudiantes. Estudio de los esquemas argumentales.

CONTENIDOS MÍNIMOS DE ALGUNAS ASIGNATURAS ELECTIVAS

Data warehousing

Arquitectura de un Data Warehouse. Integración de fuentes de datos. Extracción, depuración, transformación y carga de datos. Diseño del Data Warehouse. Esquema estrella, esquema Snowflake. OLAP y el análisis multidimensional, diversas operaciones. Modelos ROLAP, MOLAP y HOLAP. Procesamiento y optimización de consultas. Materialización eficiente de vistas. Gestión de metadata. Calidad de datos. Calidad del Data Warehouse.

Recuperación de información

Modelización. Evaluación de recuperación. Lenguajes y operaciones de consulta. Lenguajes para texto y multimedia. Operaciones sobre texto. Indexación y búsqueda. Búsqueda en la Web.

Metaheurísticas

Durante el curso se presentará la idea general de qué es una metaheurística, y cuándo es conveniente usar este tipo de enfoque para resolver un problema y se presentarán las ideas básicas de las siguientes técnicas:   Simulating annealing. Algoritmos genéticos. Esquema general de un algoritmo evolutivo. Redes Neuronales. Tabu Search. GRASP. Otras técnicas: colonias de hormigas, etc.  En función del interés de los participantes, se presentarán aplicaciones a varias de las numerosas áreas en las cuales cada una de estas técnicas han demostrado su utilidad. Estas incluyen problemas de análisis financiero, problemas de control, biología molecular, protein folding, energía, ruteo de vehículos, secuenciamiento de tareas, asignación de personal, diseño de redes de comunicaciones, coloreo de grafos, planaridad en grafos, VLSI, problemas de horarios en instituciones educativas, etc.

Data Mining en series temporales

Análisis estadístico de series de Tiempo. Teoría básica de los procesos estocásticos. Procesos estocásticos estacionarios. Modelos autorregresivos. Promedios móviles (ARMA). Modelos para series no estacionarias (ARIMA). Metodología de Box y Jenkins. Identificación. Estimación. Verificación. Pronóstico. Simulación de Procesos. Data mining en Finanzas. Manejo de Amibroker. Presentación y uso de los indicadores más comunes en el mercado. Visualización y manipulación de índices mundiales y otras series temporales de interés. Construcción y aplicación de estrategias sobre grandes volúmenes de datos.

Visualización de la información

Visualización de la Información. Dato e Información. Tipos de Datos. Ejemplos. El modelo estático (antes del uso de las computadoras). El modelo interactivo (herramientas de visualización interactivas). Contexto, dimensionalidad, datos univariados, datos bivariados, datos trivariados, datos multidimensionales, coordenadas paralelas. Representación simbólica, tamaño, largo y alto, magnificación, caras de Chernoff, iconos multidimensionales, espacialidad, patrones, color, sonido, movimiento.  El problema de la presentación, Foco y contexto, supresión, lentes mágicos, zoom y desplazamiento, acercamiento semántico. 

Redes neuronales

Redes Neuronales: Perceptrón. Combinador lineal y neurona no lineal. Multiperceptrón con entrenamiento backpropagation. Red de base radial. Redes competitivas CPN, SOM y GSOM. Técnicas de optimización: Algoritmos Genéticos. Optimización por cúmulo de partículas.

Sistemas de información geográfica

Introducción a los SIG. Elementos de un SIG: Software, Datos, Usuarios, Información. Funciones de un SIG. Sistemas de coordenadas terrestres: Geoide, Elipsoide, Proyecciones. Modelos de datos de un SIG: Raster: Vector y bases de datos relacionales. Entidades espaciales: Punto, Línea, Polígono. Raster: Introducción a la teledetección. Raster: Georreferenciación, clasificación (Decisión en árbol, Supervisada y No Supervisada). Modelo Digital de Elevaciones (DEM): Raster y Vector. Modelización de datos espaciales y Modelos Cartográficos. Análisis, diseño e implementación de un proyecto SIG para la evaluación de alternativas frente a diferentes problemas territoriales.

Tópicos avanzados de Web y Text Mining.

Web Mining. Introducción a la minería de la Web. Crawling, indexación y detección de duplicados. Análisis de enlaces. Análisis de Web logs. Identificación de temas supervisada y no supervisada. Latent Semantic Indexing. Extracción de información y comprensión.

Text Mining. Definición. Arquitectura de un sistema de Text Mining. Representación y preprocesamiento. Representaciones basadas en significado. Reducción de la dimensionalidad. Categorización de textos. Definición. Categorización semántica de textos. Ensamblaje de clasificadores. Clustering. Medida de similitud de documentos. Minería de texto multilingüe.

Tópicos de data mining en Big Data.

Introducción al Big Data. Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data). Similitud de ítems. Métodos de búsqueda de items por similitud. Técnicas. Data Mining sobre flujo de datos Modelo de Stream Data. Ejemplos de orígenes de datos del tipo stream. Problema de estimación de eventos distintos. Análisis de grafos de relaciones. Estudio de los fundamentos de los buscadores de Internet modernos. Publicidad online. Introducción a la publicidad online. Espacios de publicidad en la Web y Direct Placement. Algoritmos de matching online y offline. Sistemas de recomendación. Introducción a los sistemas de recomendación. Matriz de utilidad, Long tail. Aplicaciones. Sistemas basados en contenido. Modelos basados en conocimiento y modelos híbridos. Modelos de obtención del feedback. Evaluación.

Tecnologías semánticas9

Representación del conocimiento, redes semánticas, ontologías, aprendizaje de ontologías, similitud semántica, validación semántica en modelos de minería de datos, integración de información, alineamiento de ontologías, aprendizaje en alimeanot de ontologías, lógicas para la descripción, web semántica, búsqueda semántica, minería de datos en la web semántica.

Sistemas de Recomendación10

UNIDAD 1. Introducción a los sistemas de recomendación

Introducción a los sistemas de recomendación. Objetivos. Modelos básicos. Temas avanzados y aplicaciones.

UNIDAD 2. El filtrado colaborativo

Introducción. La matriz de utilidad. Propiedades de la matriz de utilidad.

El filtrado colaborativo basado en vecinos. Predicción de utilidades. Métodos de aglomeración. Reducción de la dimensionalidad. La predicción como problema de regresión. Modelos de grafos.

El filtrado colabroativo basado en modelos. Árboles de decisión y regresión. Filtrado colaborativo basado en reglas. Filtrado colaborativo bayesiano simple. Uso a ciegas de un clasificador arbitrario. Modelos de factores latentes. Integración de modelos de factorización y de vecinos.

UNIDAD 3. Sistemas de recomendación basados en contenido y en conocimiento

Sistemas de recomendación basados en contenido. Componentes básicos de un sistema basado en contenido. Preprocesamiento y extracción de características. Aprendizaje de perfiles de usuario y filtrado. Recomendaciones basadas en contenido versus colaborativas. Uso de modelos basados en contenido para filtrado colaborativo.

Sistemas de recomendación basados en conocimiento. Sistemas de recomendación basados en restricciones. Sistemas de recomendación basadps en casos. Personalización persistente en sistemas basados en conocimiento.

UNIDAD 4. Sistemas de recomendación híbridos y de ensamble

Métodos de ensamble desde una perspectiva de clasificación. Híbridos en cascada. Híbridos ponderados. Conmutación de híbridos. Híbridos de combinación y aumento de características.

UNIDAD 5. Evaluación de sistemas de recomendación

Paradigmas de evaluación. Objetivos generales del diseño de evaluaciones. Problemas de diseño en los sistemas de recomendación fuera de línea. Métricas de precisión en evaluación fuera de línea. Limitaciones de las métricas de evaluación.

UNIDAD 6. Sistemas de recomendación sensibles al contexto, al tiempo y al lugar

Introducción a los sistemas de recomendación sensibles al contexto. Aproximación multidimensional. Filtrado previo contextual. Métodos de filtrado posterior. Modelización del contexto.

Filtrado colaborativo temporal. Modelos discretos temporales. Sistemas de recomendación sensibles al lugar.

UNIDAD 7. Temas avanzados en sistemas de recomendación

Recomendaciones estructurales en redes. Algoritmos de ranking. Recomendaciones por clasificación colectiva. Recomendando amigos. Análisis de la influencia social.

Sistemas de recomendación sociales y centrados en la confianza. Modelos multidimensionales para contexto social. Métodos centrados en la red y en la confianza. Interacción de los usuarios en los sistemas de recomendación sociales.

Sistemas de recomendación resistentes a ataques. Entendiendo las compensaciones mutuas en los modelos de ataque. Tipos de ataques. Detección de ataques. Estrategias para el diseño robusto de sistemas de recomendación.

Aprender a haer rankings. Algoritmos de bandido con múltiples brazos. Sistemas de recomendación para grupos. Sistemas de recomendación de criterios múltiples. Aprendizaje activo en los sistemas de recomendación. Privacidad en los sistemas de recomendación. Dominios de aplicación interesantes y novedosos.

Aprendizaje reforzado11

1. Introducción. Definición del problema. Enumeración de aplicaciones. Relación con otros campos. Software utilizado.

2. Procesos dew Decisión Markovianos. Señal de Recompensa. Polìticas y Funciones de Valor. Métodos On-Policy vs. Métodos Off-Policy. Aprendizaje.

3. Reforzado Model-based vs. Aprendizaje Reforzado Model-free. Exploración y explotación. Problema del Bandido Multibrazo. Métodos de solución. Aplicación a Procesos de Decisión Markovianos.

4. Programación Dinámica: Ecuación de Bellman. Iteración de Políticas y Funciones de Valor.

5. Métodos Tabulares: Predicción y Control Monte-Carlo. Método de Diferencias Temporales.

6. Integración de Aprendizaje y Planificación. Arquitecturas Integradas.

7. Métodos de Solución Aproximados: Aproximación de funciones. Métodos de Política Gradiente.

8. Casos de Estudio.

Aprendizaje automático de grafos12

UNIDAD 0. Repaso de grafos

Definiciones básicas: nodo, arista, grado, camino, subgrafo, clique. Variantes: grafos dirigidos, grafos múltiples. Nodos y aristas etiquetados.

Representaciones computacionales: diccionario, matriz, lista, etc.

UNIDAD 1. Visualización y análisis exploratorio de grafos

Representaciones de grafos, proyecciones en dos dimensiones. Interpretación de las representaciones obtenidas.

UNIDAD 2. Descriptores y propiedades en grafos

Caminos mínimos, caminos al azar. Medidas de centralidad e importancia de nodos y aristas.

Modularidad. Grafos al azar.

Alineación de grafos y grafos de consenso.

UNIDAD 3. Detección de comunidades

Aglomeración jerárquica, espectral, markoviana, propagación de afinidad basada en información. Fortalezas y debilidades de cada método. Comparación con el aglomeramiento métrico.

UNIDAD 4. Aprendizaje supervisado sobre grafos.

Aprendizaje supervisado sobre los nodos. Algoritmos que utilizan la estructura de la red: vecinos más cercanos, propagación de etiquetas, difusión. Aprendizaje sobre los nodos penalizando o regularizando según conectividad.

UNIDAD 5. Grandes grafos.

Desafíos y particularidades de grandes grafos. Técnicas y herramientas para analizar y visualizar grandes grafos. Aprendizaje automático en grandes grafos.

TALLER DE ACTUALIZACIÓN EN BIG DATA13

CARGA HORARIA TOTAL: DIECISÉIS (16) horas

INTRODUCCIÓN AL BIG DATA

Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data); arquitectura de datos y file system distribuidos de gran escala y modelo map reduce para diseñar algoritmos paralelos. Ejemplos de algoritmos clásicos sobre map reduce.

ALGORITMOS BIG DATA

-Similitud de ítems: Métodos de búsqueda de ítems por similitud. Indicador de Jaccard sobre conjuntos y bags, similitud de documentos. Técnica de Shingling de documentos, Minhashing y hashing localmente sensible. Aplicaciones: detección de plagio, singature de documentos.

-Data Mining sobre flujo de datos: Modelo de Stream Data. Ejemplos de orígenes de datos del tipo stream. Técnicas de sampling y filtrado. Bloom filtering. Problema de estimación de eventos distintos, estimador de Flajolet-Martin y otros algoritmos. Problema de almacenamiento, procesamiento, óptimo y estimados.

ANÁLISIS DE GRADOS DE RELACIONES

Estudio de los fundamentos de los buscadores de Internet modernos, Google’s PageRank, Hubs y autoridades, link spam farm y otros problemas. Reconocimiento de líderes de opinión y eminencias en redes sociales.

SISTEMAS DE RECOMENDACIÓN

Introducción a los sistemas de recomendación. Matriz de utilidad, Long Tail. Aplicaciones. Sistemas basados en contenido. Representación de los ítems, los usuarios y los votos. Filtros colaborativos. Similitud de ítems y usuarios, cold-start. Factorización de matrices. Modelos basados en conocimientos y modelos híbridos. Modelos de obtención del feedback. Evaluación.

VI. ESTUDIANTES

1) Condiciones de admisión

Podrán ingresar a la Maestría en Explotación de Datos y Descubrimiento de Conocimiento todas aquellas personas que cumplan con los requisitos establecidos en el Artículo 110 CÓDIGO.UBA I-20 que se transcribe a continuación:

a) ser graduado de esta Universidad con título de grado correspondiente a una carrera de CUATRO (4) años de duración como mínimo, o

b) ser graduado de otras universidades argentinas con título de grado correspondiente a una carrera de CUATRO (4) años de duración como mínimo, o

c) ser graduado de universidades extranjeras que hayan completado, al menos, un plan de estudios de DOS MIL SEISCIENTAS (2.600) horas reloj o hasta una formación equivalente a master de nivel I, o

d) ser egresado de estudios de nivel superior no universitario de CUATRO (4) años de duración como mínimo y además completar los prerrequisitos que determine la Comisión de Maestría, a fin de asegurar que su formación resulte compatible con las exigencias del posgrado al que aspira;

e) aquellas personas que cuenten con antecedentes de investigación o profesionales relevantes, aun cuando no cumplan con los requisitos reglamentarios citados, podrán ser admitidos excepcionalmente para ingresar a la Maestría con la recomendación de la Comisión de Maestría correspondiente y con la aprobación del Consejo Directivo de la Unidad Académica que tiene a su cargo la administración de la Maestría o del Consejo Superior, si correspondiere.

La Maestría podrá realizarse en un área diferente a la del título de grado.

En todos los casos se requerirá el manejo del idioma inglés.

Los aspirantes a ingresar en la Maestría deberán presentar en la oficina que la Facultad sede administrativa disponga la siguiente documentación:

a) Ficha de inscripción

b) Fotocopia del Documento Único de Identidad

c) Copia del título universitario legalizado por la Universidad de Buenos Aires

d) Curriculum vitae

e) Pago de matrícula de inscripción

Los alumnos de Universidades Extranjeras deberán agregar un Certificado de la Unidad Académica otorgante del título de grado, en el que consten las horas de clase de la carrera y tener sus títulos apostillados (si correspondiere) y legalizados en la Oficina de Planes y Títulos de la Universidad de Buenos Aires.

Esta documentación será evaluada por la Comisión de Maestría y elevada al  Consejo Directivo de la Facultad sede administrativa con la recomendación de admisión y los requisitos que deberá cumplimentar el postulante previamente a su admisión:

a) asignaturas de nivelación dictadas en el marco de la Maestría o

b) asignaturas de grado que podrán ser cursadas y aprobadas en las Unidades Académicas que la Comisión de Maestría determine.

Luego de su admisión por el Consejo Directivo de la Facultad sede administrativa, el alumno podrá solicitar a la Comisión de Maestría la aprobación por equivalencia de las asignaturas que como cursos de posgrado haya aprobado en otros ámbitos académicos (ver Funciones de la Comisión de Maestría ítem 6) b.)

2) Vacantes requeridas para el funcionamiento del posgrado:

Mínimo: VEINTICINCO (25)

Máximo: CINCUENTA Y CINCO (55)

3) Criterios de regularidad:

Se considerarán alumnos regulares de la Maestría aquellos que cumplimenten la reglamentación vigente en la Facultad Sede administrativa.

Se establece un plazo de CINCO (5) años como el período que debe transcurrir entre la admisión en la Maestría (fecha de la Resolución del Consejo Directivo) y la aprobación de la Tesis de Maestría (fecha del acta). Si al cabo de ese período, el alumno no ha aprobado su Tesis, podrá solicitar un período de prórroga a la Comisión de Maestría, que evaluará la solicitud y la elevará (con su dictamen) al Consejo Directivo de la Facultad sede administrativa.

En el caso de pérdida de regularidad los alumnos deberán solicitar su readmisión a la Comisión de Maestría que establecerá los requisitos que deberá cumplimentar el interesado para ser readmitido.

4) Requisitos de graduación

Para acceder al Titulo de Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento, el maestrando deberá cumplimentar los siguientes requisitos:

a) Ser alumno regular de la Maestría.

b) Haber aprobado la totalidad de las asignaturas SESCIENTOS SETENTA Y DOS (672) horas de duración que constituye el Plan de estudios.

c) Haber aprobado las CIENTO SESENTA (160) horas de Talleres.
Haber presentado y defendido satisfactoriamente, una Tesis de Maestría que signifique un avance en el conocimiento del área o un aporte a la solución de problemas específicos.

d) Haber completado el pago del arancel de la Maestría.

La confección y expedición del diploma de Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento se realizará según lo establecido por el Capítulo A CÓDIGO.UBA I-24.

5) Tesis de Maestría

El trabajo de Tesis será individual, escrito y podrá adquirir formato de proyecto, obra, o trabajo similar que permita evidenciar la integración de aprendizajes realizados en el proceso formativo, la profundización en el campo de la Explotación de Datos y Descubrimiento de Conocimiento y el manejo de destrezas y perspectivas innovadoras dentro del área.

En cualquier momento a partir del primer año el maestrando podrá proponer el Plan de Tesis y el profesional/docente/investigador elegido como Director de Tesis, a la Comisión de la Maestría.

La Comisión de Maestría evaluará el Plan de Tesis y los antecedentes del Director y elevará su dictamen al Consejo Directivo de la Facultad sede administrativa (Ver Funciones de la Comisión de Maestría ítem 6) i.j.)

Se establece un plazo de CINCO (5) años como el período que debe transcurrir entre la admisión en la Maestría (fecha de la Resolución del Consejo Directivo) y la aprobación de la Tesis de Maestría (fecha del acta). Si al cabo de ese período, el alumno no ha aprobado su Tesis, podrá solicitar un período de prórroga a la Comisión de Maestría, que evaluará la solicitud y la elevará (con su dictamen) al Consejo Directivo de la Facultad sede administrativa

5.1) Director de Tesis

El Director de Tesis debe ser un profesional de sólida formación, acreditada idoneidad y experiencia en el área correspondiente al Plan de Tesis. Se deberá adjuntar su Curriculum Vitae a la propuesta de su designación y una nota donde éste deberá manifestar fehacientemente su conformidad.

El director de Tesis no podrá tener a su cargo más de CINCO (5) tesistas, incluyendo los de las otras carreras de posgrado.

5.2) Funciones del Director de Tesis

a) Presentar, juntamente con el maestrando, el Plan de Tesis para su consideración por la Comisión de la Maestría (Ver Funciones de la Comisión de Maestría
ítem 6) i.j.)

b) Una vez aprobado el Plan de Tesis por el Consejo Directivo de la Facultad sede administrativa, el Director de Tesis deberá atender, orientar y supervisar en forma permanente al maestrando para lograr el desarrollo exitoso del Plan de Tesis.
El Director de Tesis podrá proponer por si o por solicitud de la Comisión de Maestría, la designación de un Codirector cuando la índole del tema del trabajo así lo aconseje o cuando el Director residiera temporariamente fuera del lugar donde se desarrolla el Plan de Tesis. El Codirector será designado por el Consejo Directivo de la Facultad Sede administrativa y actuará como representante del Director.

5.3) Plan de Tesis

El Plan de Tesis deberá contener:

a) El tema sobre el cual se desarrollará la Tesis.

b) Los antecedentes y relevancia del tema.

c) El aporte esperado al finalizar el proyecto.

d) El aporte profesional a la disciplina.

e) Las posibles transferencias de los resultados.

f) Lugar de trabajo con la disponibilidad de infraestructura, factibilidad de desarrollo del trabajo y financiamiento (si correspondiera).

g) El Plan de trabajo y el cronograma tentativo.

h) Referencias bibliográficas.

5.4) Para la presentación de la Tesis

Una vez cumplimentado el Plan de Tesis el maestrando deberá presentar a la Comisión de Maestría:

1) Una nota del Director de Tesis informando que:

a) el maestrando ha finalizado su trabajo y se encuentra en condiciones de presentar su Tesis a consideración de los jurados,

b) los aportes al área del conocimiento en que se desarrolló el Plan de Tesis y los aportes a la Explotación de Datos y Descubrimiento de Conocimiento.

2) Una nota del maestrando (firmada por el maestrando y el Director y/o Codirector, si correspondiere) en la cual informe la finalización del trabajo de Tesis, presente un Resumen de la Tesis, y proponga la fecha tentativa de exposición y defensa pública.

3) Entregar TRES (3) ejemplares de la Tesis, los cuales serán remitidos a los jurados, debiendo además, entregar una copia de la tesis, en formato electrónico (CD ó DVD). Todos los ejemplares deberán estar refrendados por el maestrando y su Director (y Co-Director si lo hubiera) de tesis de maestría.

5.5) Jurado de Tesis

De acuerdo con el Artículo 106 CÓDIGO.UBA I-20, la Tesis de la Maestría será evaluada por un jurado integrado por TRES (3) miembros titulares, debiendo al menos UNO (1) de éstos ser externo a esta Universidad, y DOS (2) miembros suplentes. El Jurado será propuesto por la Comisión de Maestría al Consejo Directivo de la Facultad sede administrativa (Ver Funciones de la Comisión de Maestría 6) k.) Una vez designado el Jurado de Tesis por el Consejo Directivo de la Facultad sede administrativa el maestrando podrá hacer la defensa pública de la misma.

El Director no formará parte del Jurado pero podrá participar de las deliberaciones con voz pero sin voto. Salvo situaciones especiales previstas en convenios con universidades del extranjero, la escritura del trabajo será realizada en lengua castellana y su defensa será oral y pública.

5.6) Evaluación de la Tesis de Maestría

El Jurado evaluará la Tesis en un plazo no mayor a DOS (2) meses, contados a partir de su designación.

De acuerdo con el Artículo 116 CÓDIGO.UBA I-20:

La Tesis podrá resultar:

a) APROBADA con dictamen fundado: aprobada y en caso excepcional APROBADA con mención especial.

b) DEVUELTA: en cuyo caso el Jurado decidirá si el maestrando deberá modificarla o completarla y el plazo otorgado a tal fin. 

c) RECHAZADA con dictamen fundado.

La decisión del Jurado se tomará por mayoría simple y deberá ser asentada en el Libro de Actas correspondiente.

El Jurado calificará la Tesis en el Acto de su exposición y defensa pública.

Una vez aprobada la Tesis, el maestrando deberá entregar a la Comisión de Maestría el ejemplar definitivo, la copia en CD y si correspondiere, la autorización para la publicación de su Tesis en la Biblioteca Digital de la Facultad de Ciencias Exactas y Naturales, para lo que deberá descargar el correspondiente archivo desde:

http://digital.bl.fcen.uba.ar/download/FormularioAutorizacionBibliotecaDigitalDeTesis.doc

La Comisión de Maestría deberá presentar el ejemplar definitivo, el DVD y la autorización de publicación en la Biblioteca de la Facultad de Ciencias Exactas y Naturales o en la oficina administrativa designada para tal fin.

VII. INFRAESTRUCTURA Y EQUIPAMIENTO

Los inmuebles en los que se desarrolla la Maestría son propiedad de la Universidad por lo cual queda asegurada la permanencia y continuidad de uso de los mismos.

Los edificios principales en cuanto a superficie e instalaciones son:

Edifício de Avda. Paseo Colón Nº 850 Ciudad Autónoma de Buenos Aires (CABA), Edifício de Avda. Las Heras Nº 2214, Pabellón 1 y Pabellón 2, Ciudad Universitaria.

Cada uno de los inmuebles pertenecientes a Facultad de Ingeniería de la Universidad de Buenos Aires (FIUBA) posee características destacadas en cuanto al patrimonio y valor arquitectónico e histórico.

La Maestría se desarrolla fundamentalmente en las instalaciones presentes en Ciudad Universitaria, y en menor grado en las sedes de Las Heras o Paseo Colón.

La Maestría requiere laboratorios disponibles en la Facultad de Ciencias Exactas y Naturales, fundamentalmente en los laboratorios 1, 4 y 5.

La infraestructura disponible para el desarrollo de las actividades previstas en la Maestría se considera adecuada y suficiente para el logro de los objetivos académicos planteados.

En relación a la bibliografía, los alumnos de la Maestría acceden a todos los servicios de las Bibliotecas Centrales de ambas Facultades. La biblioteca, en el caso de Facultad de Ingeniería de la Universidad de Buenos Aires (FIUBA), tiene sedes en cada uno de los TRES (3) edificios de la Facultad. También se cuenta con los libros de la biblioteca propia de la Maestría.

En cuanto a los demás espacios físicos, cuenta con una oficina administrativa de uso exclusivo y ambas facultades disponen de aulas con capacidad suficiente para las actividades de carácter teórico que se desarrollan durante la cursada.

VIII. MECANISMOS DE AUTOEVALUACIÓN

La Maestría será evaluada cada CINCO (5) años por el Consejo Superior, según lo dispuesto en los Artículos 205 y 206 CÓDIGO.UBA I-20.

Se contempla el uso de un régimen de encuestas por tema y profesor, que se realizarán una vez terminadas las asignaturas.

Las encuestas son anónimas y evalúan tanto el tema como la exposición, la claridad del profesor para hacer llegar sus ideas y conocimientos, la previsión que el mismo ha tenido para poder contar con el adecuado soporte teórico y la capacidad de generar interés en la asignatura.

Se llevará un archivo estadístico con las conclusiones de cada evaluación.

Al finalizar cada cuatrimestre se realizará una reunión con los profesores que participaron del dictado de las asignaturas en el semestre en curso para obtener información acerca del desempeño de los alumnos, dificultades encontradas durante el dictado, tanto por contenidos como por infraestructura disponible.

Se realizarán reuniones periódicas (semestrales) en las que participarán los integrantes de la Comisión de Maestría y DOS (2) profesores de cada una de las Facultades participantes; en las cuales se analizará el desarrollo de las diferentes asignaturas, considerando las opiniones de los alumnos a través de las encuestas realizadas.

La Comisión de Maestría, además, analizará en sus reuniones periódicas la cantidad y calidad de las Tesis aprobadas y/o rechazadas, para diseñar acciones que permitan solucionar problemas detectados.


[1] Resolución (CS) 989/02
[2] Resolución (CS) 989/02
[3] Resolución (CS) 8219/13
[4] Resolución (CS) 2374/15
[5] Resolución (CS) 7060/17
[6] Resolución (CS) 513/19
[7] Resolución (CS) 514/19
[8] Resolución (CS) 4336/16
[9] Resolución (CS) 2374/15
[10] Resolución (CS) 7060/17
[11] Resolución (CS) 513/19
[12] Resolución (CS) 514/19
[13] Resolución (CS) 4336/16