Multi-modal AI wordt het nieuwe normaal.

Vorige week lanceerden zowel OpenAI als Google de nieuwste versie van hun generatieve AI-modellen. In een livestream werd aangekondigd dat OpenAI hun welbekende model een nieuwe update kreeg genaamd ChatGPT-4o (“o” voor “omni”) en Google presenteerde haar visie op de toekomst van AI met de naam Project Astra tijdens een keynote op hun developers conferentie Google I/O 2024. Wat deze twee AI-modellen gemeen hebben? Multi-modality.

Multi-modality in het kort

Multi-modality omschrijft het vermogen van artificial intelligence om verschillende soorten gegevens en media te verwerken. Denk hierbij aan tekst, afbeeldingen, audio, video en meer. Het AI-model kan deze bronnen van informatie combineren, op een vergelijkbare manier met hoe mensen zintuigen gebruiken om de wereld om hen heen waar te nemen en te interpreteren. Vervolgens kan het AI-model in real-time antwoorden waardoor het als het ware kan communiceren met mensen. Een soort virtuele, persoonlijke assistent dus.

De belangrijkste updates van OpenAI en Google

Waar ChatGPT-4o al een daadwerkelijke lancering was, is Google’s Project Astra meer een aankondiging van een verbetering van hun Gemini modellen. Om die reden is het duidelijker wat het nieuwe flagship model van ChatGPT kan en is het nog even afwachten wat Project Astra precies in petto heeft voor Gemini, maar dit weten we in ieder geval al zeker:

  1. Beide modellen kunnen naast tekst nu dus ook visuele en audio input verwerken in een razendsnel tempo. Je kan dus bijvoorbeeld met de telefooncamera filmen, waarbij de AI direct zal reageren in spraak, waarbij het voelt alsof je in gesprek bent met een mens, verstopt in je smartphone. Voor GPT-4o is het zelfs mogelijk om in te stellen wat voor persoonlijkheid je AI assistent krijgt, met ieder zijn/haar unieke stem.

  2. ChatGPT-4o zal gratis beschikbaar zijn voor haar meer dan 100-miljoen wekelijkse appgebruikers (tot een bepaald aantal berichten). Voor de gratis gebruikers van GPT-3.5 is het dus een enorme verbetering. Over de gebruikerskosten van Project Astra in de Gemini app is nog niets bekend, maar wel is duidelijk dat Google dit zal gaan integreren in hun producten zoals Google Glass.

  3. Deze modellen zullen een nóg beter geheugen hebben dan hun voorgangers, waardoor het langere en meer complexe dialogen kan voeren zonder de context uit het oog te verliezen.

  4. Het is mogelijk om files te uploaden waarbij beide AI-modellen dit kunnen analyseren, samenvatten en op voortborduren. Ook het aanleveren van code kan gebruikt worden om feedback te krijgen hoe het te verbeteren. GPT-4o kan zelfs grafieken vanuit de beschikbare data voor je creëren.

  5. Nog een waanzinnige functionaliteit van GPT-4o is de mogelijkheid om direct te kunnen vertalen tussen twee mensen. Check de video hieronder.

Wat deze ontwikkelingen zullen gaan betekenen

Wat duidelijk is, is dat multi-modal AI een steeds prominentere rol zal gaan spelen in de samenleving. Binnen no-time zal het normaal worden dat er in je broekzak, op je PC en wellicht zelfs je koelkast een virtuele assistent zal zitten die mensecht lijkt. Deze assistent zal je direct kunnen helpen met prangende vragen, maar in de toekomst je ook de weg kunnen wijzen een vreemd land of een pak melk voor je bestellen. Super handig natuurlijk, maar tegelijkertijd ook een beetje eng.

Op het moment dat grenzen vervagen tussen mens en machine zal de vraag op blijven komen of sociale skills van individuen hiermee niet achteruitgaan en daarmee de interacties tussen echte mensen aantast. Daarom is het van belang dat er duidelijke afspraken en aanwijzingen komen om te zorgen dat men weet wanneer het tegen iets kunstmatigs aan het praten is, om zodoende het onderscheid te kunnen blijven maken tussen wat echt is en wat niet. Alleen dan plukken we als samenleving de vruchten van artificial intelligence.

Vorige
Vorige

Surely You’re Not Thinking, Mr. AI!

Volgende
Volgende

De evolutie van kunstmatige intelligentie.