IA multimodal

La inteligencia artificial multimodal (IA multimodal) se refiere a los sistemas de IA capaces de procesar, interpretar e integrar simultáneamente varios tipos de datos (o modalidades), como texto, imágenes, audio, vídeo o datos sensoriales, para generar respuestas o decisiones más completas y matizadas.

A diferencia de los modelos de IA tradicionales (unimodales), especializados en un solo tipo de datos (texto/imágenes/vídeo/audio), la IA multimodal imita la cognición humana combinando fuentes heterogéneas para una comprensión contextual enriquecida.