Home > IA Woordenlijst > Multimodale AI

Multimodale AI

A multimodale kunstmatige intelligentie (multimodale AI) verwijst naar AI-systemen die tegelijkertijd in staat zijn tot het verwerken, interpreteren en integreren van verschillende soorten gegevens (of algemene voorwaarden), zoals tekst, afbeeldingen, audio, video of zintuiglijke gegevens, om meer volledige en genuanceerde reacties of beslissingen te genereren.

In tegenstelling tot traditionele (unimodale) AI-modellen, die zich specialiseren in één soort gegevens (tekst/afbeeldingen/video/audio), bootst multimodale AI de menselijke cognitie na door heterogene bronnen te combineren voor een verrijkt begrip van de context.

 


Belangrijkste kenmerken

  1. Integratie van heterogene gegevens
    Het voegt modaliteiten met verschillende structuren samen (sequentiële tekst, ruimtelijke beelden, tijdelijke audio) met behulp van technieken zoals de vroege, intermediaire of late fusie om een uniforme weergave te creëren.
    Voorbeeld een video analyseren door de audio- en visuele sporen op elkaar af te stemmen om emoties te detecteren.
  2. Geavanceerd contextueel begrip
    Door complementaire gegevens te combineren (bijvoorbeeld een afbeelding en de bijbehorende tekstbeschrijving), vermindert het de dubbelzinnigheid en verbetert het de nauwkeurigheid. Een model kan bijvoorbeeld een afbeeldingsonderschrift genereren of een vogel identificeren aan de hand van zijn zang en een foto.
  3. Robuustheid en veerkracht
    Als een modaliteit ontbreekt of ruis vertoont (bijv. slechte geluidskwaliteit), vertrouwt het systeem op andere bronnen (bijv. visueel of tekstueel) om zijn prestaties op peil te houden.

 


Praktische toepassingen

  • Gezondheid Diagnostiek die MRI, patiëntendossiers en genomische gegevens combineert.
  • Autonome voertuigen samenvoeging van LiDAR-, camera- en GPS-gegevens voor veilige navigatie.
  • Virtuele assistenten Interactie via spraak, tekst en afbeeldingen (bijv. ChatGPT-o met ChatGPT Vision).
  • Media video-ondertiteling genereren of beelden maken van tekstaanwijzingen (DALL-E).

Onderliggende technologieën

  • Natuurlijke taalverwerking (NLP) om tekst en spraak te interpreteren.
  • Computervisie beeld- en videoanalyse met behulp van convolutionele neurale netwerken (CNN).
  • Audioherkenning Detectie van spraak of geluid.
  • Modellen samenvoegen Architecturen zoals transformatoren (bijv. GPT-4) die modaliteiten in één model combineren.

 


Uitdagingen en grenzen

  • Gegevensafstemming modaliteiten temporeel (bijv. audio en video) of ruimtelijk synchroniseren.
  • Complexiteit van integratie Heterogene gegevens weergeven in een gemeenschappelijke ruimte zonder informatieverlies.
  • Berekeningsvereisten Voor het verwerken van grote hoeveelheden gegevens uit meerdere bronnen zijn aanzienlijke hardwarebronnen nodig.

 


Concrete voorbeelden

  • GPT-4o (de "o" staat voor "omni"): in staat om tekst te genereren, afbeeldingen te interpreteren en audio te verwerken.
  • Tesla auto's De nieuwe technologieën: gegevens van camera's, radar en sensoren gebruiken voor autonoom rijden.
  • IBM Watson multimodale analyse in de oncologie, waarbij medische beelden en tekstrapporten worden gecombineerd