Programa del Curso

Introducción a la inteligencia artificial multimodal

  • ¿Qué es la IA multimodal?
  • Desafíos y aplicaciones clave
  • Resumen de los principales modelos multimodales

Procesamiento de texto y comprensión del lenguaje natural

  • Aprovechando LLMs para agentes de IA basados en texto
  • Entendiendo la ingeniería de primero para tareas multimodales
  • Ajuste fino de modelos de texto para aplicaciones específicas de dominio

Reconocimiento e generación de imágenes

  • Procesamiento de imágenes con IA: clasificación, subtitulado y detección de objetos
  • Generar imágenes con modelos de difusión (Stable Diffusion, DALLE)
  • Integrar datos de imagen con modelos basados en texto

Procesamiento de voz y audio

  • Reconocimiento de voz con Whisper ASR
  • Técnicas de síntesis de texto a voz (TTS)
  • Mejorar la interacción del usuario con IA basada en voz

Integración de entradas multimodales

  • Construyendo tuberías de IA para procesar múltiples tipos de entrada
  • Técnicas de fusión para combinar datos de texto, imagen y voz
  • Aplicaciones del mundo real de agentes de IA multimodales

Implementación de Multi-Modal AI Agents

  • Construyendo soluciones de IA multimodal impulsadas por API
  • Optimizar modelos para rendimiento y escalabilidad
  • Mejores prácticas para implementar IA multimodal en producción

Consideraciones éticas y tendencias futuras

  • Sesgo y equidad en la IA multimodal
  • Preocupaciones de privacidad con datos multimodales
  • Desarrollos futuros en IA multimodal

Resumen y próximos pasos

Requerimientos

  • Una comprensión de los fundamentos del aprendizaje automático
  • Experiencia con programación
  • Familiaridad con los marcos de aprendizaje profundo (por ejemplo, Py)

Público objetivo

  • Desarrolladores de IA
  • Investigadores
  • Ingenieros en multimedia
 21 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas