PDF de programación - Aprendizaje Automático sobre Grandes Volúmenes de Datos - Clase 1

Imágen de pdf Aprendizaje Automático sobre Grandes Volúmenes de Datos - Clase 1

Aprendizaje Automático sobre Grandes Volúmenes de Datos - Clase 1gráfica de visualizaciones

Publicado el 1 de Mayo del 2018
472 visualizaciones desde el 1 de Mayo del 2018
388,3 KB
41 paginas
Creado hace 5a (13/08/2014)
Primera Clase: Generalidades

Aprendizaje Automático sobre
Grandes Volúmenes de Datos

Clase 1 - 11 de Agosto 2014

Pablo Ariel Duboue, PhD

Universidad Nacional de Córdoba,

Facultad de Matemática, Astronomía y Física

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Qué es el aprendizaje automático sobre grandes volúmenes
de datos

Aprendizaje Automático: un nuevo paradigma de programación
Esta materia: cuando los datos y modelos no entran en RAM /
disco de una sola máquina
Importante para América latina porque no hay muchas
máquinas / recursos

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

A quiénes está dirigida esta materia

Estudiantes avanzados de carreras de grado
Estudiantes de posgrado
Profesionales del campo
Prerequisitos:

Conocimientos de programación
Álgebra (particularmente álgebra matricial).
Probabilidad y Estadística
Redes y Sistemas Distribuídos (o similar, al menos Sistemas
Operativos).

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Estructura del curso

Tres partes:

1 Aprendizaje Automático (teórico)
2 Computo Distribuido (teórico)
3 Práctica (mahout/hadoop)

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Parte I

Modelos, Ingeniería de Features.
Clasicación

Árboles de decisión
Regresión logística
SVMs

Clustering

kMeans
Clustering estadístico

Recomendación

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Parte II

Conceptos de Cómputo Distribuido

Map/Reduce
Teorema CAP
Operaciones Matriciales Distribuidas
Gradiente
Búsqueda distribuida
Algoritmos actualizables
Colas, shared memory

Paralelizando algoritmos de Aprendizaje Automático

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Parte III

Implantación
Hadoop

Map
Reduce

Mahout

Recomendación
Clustering
Clasicación

ActiveMQ e Híbridos

Casos de estudio

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Casos de estudio

Delicado equilibrio entre lo factible y lo útil

Datos disponibles
Problemas interesantes

Clasicación: nombres para métodos compilados
(http://keywords4bytecodes.org)
Recomendación: paquetes para Debian
Clustering: identicación de páginas co-editadas en Wikipedia

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Evaluación

Estudiantes presenciales

Prácticos
Parcial
Proyecto / monografía

Oyentes / estudiantes remotos

Multiple opción en línea
Proyecto

Ambos: competencia kaggle in class en trámite

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Acerca del docente

Licenciado en Computación UNC-FaMAF
Doctorado Indirect Supervised Learning of Strategic
Generation Logic

Defendido Enero 2005, Columbia University, NYC

IBM Research (2005-2010)

Sistema DeepQA Watson (Jeopardy! Grand Challenge)
Systems team
Subsistema de aprendizaje automático (A framework for
merging and ranking of answers in DeepQA, IBM Journal of
R&D)
Consultoria

LinkedIn / FB / Legal / Inmobiliario / Soporte técnico

Software Libre

Thoughtland (http://thoughtland.duboue.net)

.© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Aprendizaje Automático

¾Nuevo paradigma de programación?

La vuelta al concepto de Soft Computing de los años
1980-1990

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Algoritmos con error intrínseco

¾Qué hacer con un programa que falla aún habiendo sido
programado correctamente?
No todos los problemas pueden ser abordados vía Aprendizaje
Automático
Incluir el error dentro del modelo de uso

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Datos

Limpieza de datos es fundamental
La tarea que más trabajo lleva en una implantación de
Aprendizaje Automático
Hay una diferencia innita entre "tenemos datos" y "estos
datos son útiles y listos para hacer Aprendizaje Automático"

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Aprendizaje Automático como compilación

El Aprendizaje Automático puede ser parte de un sistema de
compilación por lotes (build system)
Sin embargo, las necesidades de cómputo de un build system
son muy inferiores a las de un sistema de Aprendizaje
Automático
Los detalles de ingeniería de software relacionados con la
implantación de sistemas de Aprendizaje Automático son
claves y muchas veces dejados de lado

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Algoritmos vs. teoría

A medida que el campo va pasando de investigadores a
profesionales, el enfoque cambia de ventajas teóricas a
practicas
Popularización de sistemas híbridos
Ingeniería de features
No-free lunch theorem

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Clasicación

El Aprendizaje Automático sin calicar

Aprender lo que uno ya sabe

Tratar de aprender una función f (x1, . . . , xn) → y donde

xi son las caracterísita de aprendizaje (features) de entrada
y es la clase objetivo

La clave es extrapolación, queremos que la función generalize
a entradas nunca vistas.

Interpolación lineal es en sí una forma de hacer Aprendizaje
Automático supervisado.

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase: Generalidades

Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje

Una visión como desarrolladores

Entrenamiento/Estimación/compilación:

Entrada: vectores de features, incluyendo la clase objetivo
Salida: un modelo entrenado

Ejecución/Predicción/interpretado:

Entrada: vectores de features, sin la clase objetivo, más el
modelo entrenado
Salida: la clase objetivo predicha

© 2014 Pablo Duboue, bajo licencia CC-BY-SA

BDML-clase1-11/08

Primera Clase:
  • Links de descarga
http://lwp-l.com/pdf10765

Comentarios de: Aprendizaje Automático sobre Grandes Volúmenes de Datos - Clase 1 (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad