GPT-4o ("GPT-4 Omni") is een meertalige, multimodale generatieve, vooraf getrainde transformator ontworpen door OpenAI. Hij werd aangekondigd door de CTO van OpenAI, Mira Murati, tijdens een live gestreamde demo op 13 mei 2024 en dezelfde dag uitgebracht.
GPT-4o is gratis, maar ChatGPT Plus-abonnees krijgen een gebruikslimiet die 5 keer hoger is. De API is dubbel zo snel en maar half zo duur als zijn voorganger, GPT-4 Turbo.
Achtergrond
GPT-4o werd oorspronkelijk zonder veel ophef gelanceerd op de Large Model Systems Organization (LMSYS) als drie verschillende modellen. Deze drie modellen werden gpt2-chatbot, im-a-good-gpt2-chatbot en im-also-a-good-gpt2-chatbot genoemd. Op 7 mei 2024 tweette Sam Altman "im-a-good-gpt2-chatbot", wat algemeen werd geïnterpreteerd als een bevestiging dat dit nieuwe OpenAI-modellen waren die A/B-getest werden.
Mogelijkheden
GPT-4o behaalde uitstekende resultaten op het gebied van spraak-, meertalige- en visuele benchmarks, waarmee nieuwe records werden gevestigd op het gebied van audio-spraakherkenning en -vertaling. GPT-4o scoorde 88,7 op de Massive Multitask Language Understanding (MMLU)-benchmark vergeleken met 86,5 door GPT-4. Voor stem-naar-stem — in tegenstelling tot GPT-3.5 en GPT-4 die de stem naar tekst converteren, de tekst aan het model geven en het antwoord vervolgens weer naar stem converteren met een ander model — ondersteunt GPT-4o native stem-naar-stem waardoor de reactie vrijwel onmiddellijk en naadloos is.
Het model ondersteunt meer dan 50 talen, waarvan OpenAI beweert dat ze meer dan 97% van de sprekers ter wereld dekken. Mira Murati demonstreerde de meertalige capaciteiten van het model door Italiaans tegen het model te spreken en het te laten vertalen tussen Engels en Italiaans tijdens het live gestreamde OpenAI-demo-evenement op 13 mei 2024.
Bovendien gebruikt de nieuwe tokenizer minder tokens voor bepaalde talen, vooral talen die niet op het Latijnse alfabet zijn gebaseerd, waardoor het voor die talen goedkoper wordt.
GPT-4o is gebaseerd op informatie tot oktober 2023 en heeft een contextlengte van 128k tokens met een limiet voor uitvoertokens tot 2048.
Sinds mei 2024 is het het beste model in de Large Model Systems Organization (LMSYS) Elo Arena Benchmarks van de University of California, Berkeley.