原文と比べた結果、この記事には多数の(または内容の大部分に影響ある)誤訳 があることが判明しています。情報の利用には注意してください。 正確な表現に改訳できる方を求めています。 (2024年6月 )
GPT-4o (GPT-4 Omni ) は、OpenAI によって作られた多言語対応かつマルチモーダル (英語版 ) なGPT である。
2024年5月13日の配信でOpenAIのCTOであるミラ・ムラティ によって発表され、その日にリリースされた[ 1] 。
GPT-4oは無料で使用することができるが、制限が存在する。ChatGPT Plusのユーザーは、制限が5倍に緩和される[ 2] 。
GPT-4oはテキスト、画像、音声を入力および生成することが可能である[ 3] 。
API では、GPT-4 Turbo の半分の価格で2倍の速度で使用できる[ 1] 。
音声入力には最短232ミリ秒で応答でき、平均320ミリ秒で人間の応答時間に近い応答が可能である[ 4] 。
背景
もともと、GPT-4oはLarge Model Systems Organization's (LMSYS ) のチャットボットとして、gpt2-chatbot、im-a-good-gpt2-chatbot、im-also-a-good-gpt2-chatbotの3つの異なるモデルとしてひそかにリリースされた[ 5] 。
2024年5月7日には、サム・アルトマン は「im-a-good-gpt2-chatbot」とツイート した。これは、これらのモデルがA/Bテスト されている新しいモデルであることの確認として解釈された[ 6] 。
能力
GPT-4oは、音声、多言語、画像認識ベンチマークで最先端の結果を達成し、また音声音声認識と翻訳に関する分野で新記録を樹立した[ 7] [ 8] 。また、GPT-4oは、Massive Multitask Language Understanding(MMLU)ベンチマークで88.7というスコアを取得した。GPT-4は86.5である[ 9] 。
GPT-3.5やGPT-4は、音声認識をする際に異なるモデルを使用している。一方GPT-4oは言語モデルとしてvoice-to-voiceに対応しているため、応答をほぼより速く生成することができる[ 9] 。しかし、サム・アルトマン は2024年5月15日に、GPT-4oのこの機能はまだChatGPTに搭載されていないため、従来の方法が使用されている可能性があるとした[ 10] 。
GPT-4oは50以上の言語に対応していて[ 1] 、これは世界の言語話者の97%以上に及んでいるとOpenAIは主張している[ 11] 。ミラ・ムラティは、2024年5月13日のOpenAIの配信において、モデルにイタリア語を伝え、それを英語とイタリア語に翻訳することで、モデルの多言語能力を実証していた。
さらに、GPT-4oの新しいトークナイザーは、特にラテンアルファベットに基づいていない言語などに使用するトークンが少ないという特徴がある。そのため、それらの言語を使用するときのコストを抑えることができる[ 9] 。
GPT-4oは2023年10月までの学習データを保有している[ 12] [ 13] 。さらに、12万8000 (128k) トークンのコンテキスト長に対応していて、[ 12] また2048トークンまでを出力できる[ 13] 。
2024年5月現在、カルフォルニア大学バークレー校 のLarge Model Systems Organization (LMSYS) イロレーティング ベンチマークに含まれている[ 14] 。
音声に関する論争
GPT-4oの声として、Breeze、Cove、Ember、Juniper、Skyを提供した。リリースされた後にこのうちのSkyの声が、 スカーレット・ヨハンソン に似ているとされた。5月14日、エンターテインメント・ウィークリー誌は、この類似点は意図的なものなのかどうかを記述した[ 15] 。2024年5月18日には、ヨハンソンの夫であるColin Jostが、 サタデー・ナイト・ライブ でそれに関するジョークを言った[ 16] 。5月20日、OpenAIはSkyを無効にし、「ChatGPT、特にSkyの声をどのように学習したかについて質問をもらった。私たちは、それらに対処しながら、Skyの使用を一時停止している」と声明を出した[ 17] 。
スカーレット・ヨハンソンは、2013年にスパイク・ジョーンズのSF映画「Her」に主演し、女性の声の賢いバーチャルアシスタントであるサマンサを演じた。
GPT-4oのリリースの前のプロモーションの一環として、サム・アルトマンは5月13日に「Her」とをツイートした[ 18] [ 19] 。
OpenAIは、それぞれの声は雇われた声優によるものだと主張し、具体的には、「スカイの声はスカーレット・ヨハンソンの真似ではなく、別のプロの声優が声優自身の自然な話し声を使って作ったものだ」と主張した[ 17] 。OpenAIはすでに2023年9月に、ChatGPTアシスタントの近々登場する新しい会話バージョンはスカーレット・ヨハンソンに似せることを意図したものではないと主張した。
CTOのミラ・ムラティ氏は、その声について分からないので、実際にスカーレット・ヨハンソンの声を聞きに行かなければならなかったと述べた。OpenAIはさらに、ヨハンソンに連絡する前に声優を募集したと主張した[ 20] [ 19] 。
この事件に対して人々は、ヨハンソンが以前、マーベル映画『ブラック・ウィドウ 』のストリーミング配信をめぐる契約違反でウォルト・ディズニー社 を訴えて和解した経緯との類似点を指摘した。この和解でヨハンソンは4000万ドルほどを手にしたと推測されている[ 21] [ 22] 。
また、5月21日にはワシントンポストのShira Ovide記者がテクノロジー企業による「most bone-headed self-owns」(最も間抜けな自己所有)のリストを発表し、ヨハンソンの不同意にもかかわらずヨハンソンに似た声を採用し、その後類似点を否定した決定は6位にランクされた[ 20] 。5月24日、ポリティコ のデレク・ロバートソン氏は「massive backlash(大規模な反発)」について書き、「世界で最も有名な映画スターの一人の声を盗用することは、 AI への過度の依存についての警告となるこの映画に関連しているが、すぐに世論をサム・アルトマン氏の主張に引き戻すのに役立つ可能性は低い」と結論付けた[ 23] 。
関連項目
出典
^ a b c Wiggers (2024年5月13日). “OpenAI debuts GPT-4o 'omni' model now powering ChatGPT ” (英語). TechCrunch . 2024年5月13日 閲覧。
^ Field (2024年5月13日). “OpenAI launches new AI model GPT-4o and desktop version of ChatGPT ” (英語). CNBC . 2024年5月14日 閲覧。
^ Claburn. “OpenAI unveils GPT-4o, a fresh multimodal AI flagship model ” (英語). The Register . 2024年5月18日 閲覧。
^ “Hello GPT-4 ”. OpenAI . 2024年6月8日 閲覧。
^ Edwards (2024年5月13日). “Before launching, GPT-4o broke records on chatbot leaderboard under a secret name ” (英語). Ars Technica . 2024年5月17日 閲覧。
^ Zeff (2024年5月7日). “Powerful New Chatbot Mysteriously Returns in the Middle of the Night ” (英語). Gizmodo . 2024年5月17日 閲覧。
^ van Rijmenam (13 May 2024). “OpenAI Launched GPT-4o: The Future of AI Interactions Is Here ”. The Digital Speaker . 17 May 2024 閲覧。
^ Daws (2024年5月14日). “GPT-4o delivers human-like AI interaction with text, audio, and vision integration ” (英語). AI News . 2024年5月18日 閲覧。
^ a b c “Hello GPT-4o ”. OpenAI . 2024年6月7日 閲覧。
^ “OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman” . The Times of India . (2024年5月16日). ISSN 0971-8257 . https://timesofindia.indiatimes.com/technology/tech-news/watch-samsung-makes-fun-of-apple-says-we-would-never-crush-creativity/articleshow/110172573.cms 2024年5月18日 閲覧。
^ Edwards (2024年5月13日). “Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot ” (英語). Ars Technica . 2024年5月17日 閲覧。
^ a b “Models - OpenAI API ”. OpenAI . 17 May 2024 閲覧。
^ a b Conway (2024年5月13日). “What is GPT-4o? Everything you need to know about the new OpenAI model that everyone can use for free ” (英語). XDA Developers . 2024年5月17日 閲覧。
^ Franzen (2024年5月13日). “OpenAI announces new free model GPT-4o and ChatGPT for desktop ” (英語). VentureBeat . 2024年5月18日 閲覧。
^ Stenzel (May 14, 2024). “ChatGPT launching talking AI that sounds exactly like Scarlett Johansson in 'Her' — on purpose? ” (英語). Entertainment Weekly . 2024年5月21日 閲覧。
^ Caruso (2024年5月20日). “Scarlett Johansson Says She Was ‘Shocked, Angered and in Disbelief’ After Hearing ChatGPT Voice That Sounds Like Her — Read Statement ” (英語). TVLine . 2024年5月21日 閲覧。
^ a b “How the voices for ChatGPT were chosen ”. OpenAI (May 19, 2024). 2024年6月7日 閲覧。
^ “her ”. X (formerly Twitter) (May 13, 2024). 2024年5月21日 閲覧。
^ a b Allyn, Bobby (May 20, 2024). “Scarlett Johansson says she is 'shocked, angered' over new ChatGPT voice” . NPR . https://www.npr.org/2024/05/20/1252495087/openai-pulls-ai-voice-that-was-compared-to-scarlett-johansson-in-the-movie-her
^ a b Ovide, Shira (30 May 2024). “Perspective | Exactly how stupid was what OpenAI did to Scarlett Johansson?” . Washington Post . https://www.washingtonpost.com/technology/2024/05/21/chatgpt-voice-scarlett-johansson/
^ “Scarlett Johansson took on Disney. Now she’s battling OpenAI over a ChatGPT voice that sounds like hers ” (英語). Yahoo Finance (2024年5月21日). 2024年5月21日 閲覧。
^ Pulver, Andrew (2021年10月1日). “Scarlett Johansson settles Black Widow lawsuit with Disney” (英語). The Guardian . ISSN 0261-3077 . https://www.theguardian.com/film/2021/oct/01/scarlett-johansson-settles-black-widow-lawsuit-disney 2024年5月21日 閲覧。
^ “Sam Altman’s Scarlett Johansson Blunder Just Made AI a Harder Sell in DC - POLITICO ”. 2024年6月7日 閲覧。