OpenAI o1

OpenAI o1
開発元 OpenAI
初版 2024年9月12日 (3か月前) (2024-09-12)
後継 OpenAI o3
種別 GPT (言語モデル)
公式サイト https://openai.com/o1/
テンプレートを表示

OpenAI o1(オープンエーアイ オーワン)は、2024年9月にOpenAIによってリリースされた大規模言語モデルである[1]。o1は回答する前に思考時間をとるため、複雑な推論作業[1]、科学[1]、およびプログラミング[1]においてより高度な能力を保持する。2024年12月時点では、OpenAI o1OpenAI o1 pro modeOpenAI o1-miniの3モデルが公開されている。社内ではコードネーム「Strawberry」と呼ばれ、GPT-4oの後継ではなく、GPT-4oを補完するモデルとして位置付けられている[2]。特に科学、コーディング、数学などの分野において、従来のモデルよりも高度な問題解決能力を示す。2024年9月12日にChatGPTおよびAPIで最初のモデルがプレビューリリースされた。

歴史

背景

リークされた情報によると、o1は以前はOpenAI内部で「Q* (Q star)」[3]、後に「Strawberry」[3]として知られていた。コードネーム「Q*」は、サム・アルトマン解任騒動の頃である2023年11月に初めて浮上し[3]、この実験モデルが数学的ベンチマークで有望な結果を示したという噂があった[4]。2024年7月、ロイターは、OpenAIが「Strawberry」として知られるGPTを開発中であると報じた[3]

リリース

「o1-preview」と「o1-mini」は、2024年9月12日にChatGPT PlusおよびTeamユーザー向けにリリースされた[1]GitHubは同日、Copilotサービスへのo1-previewの統合テストを開始した[5]

OpenAIは、o1は一連の「推論」モデルの最初のモデルであり[6]、すべてのChatGPT無料ユーザーにo1-miniへのアクセスを追加する予定であると述べた[6]。o1-previewのAPIGPT-4oよりも数倍高価である[6]

2024年12月5日、OpenAIは、今後12日間(土日は換算せず20日まで)にわたって新たな発表を行うと発表した[7]

12日間の発表初日となった12月5日、OpenAIは、o1のフルモデル及びo1 pro modeを公開したほか、新たに毎月$200(発表時点)の「ChatGPT Pro」プランを提供すると発表[7][8][9]。ChatGPT Proプランではo1 pro modeが利用利用できるほか、4oやo1への無制限アクセスも含まれている[7][8]

誤公開

2024年11月2日、公式発表がない状況で有料ユーザーがURLの一部を編集することで非公開のo1モデル本体を利用できる状態となり、約2時間後に使用不可となった。その後、OpenAIの広報担当者はo1モデルへの限定的な外部アクセスの準備中に問題が発生し、一般ユーザーがo1モデルを利用可能な状態となっていたと述べた[10]

能力

OpenAIによると、o1は新しい最適化アルゴリズムと、o1専用に調整されたデータセットを使用してトレーニングされている[6]。トレーニングには強化学習が活用されている[6]

o1は回答を生成する前に追加の思考時間(思考連鎖の生成)を費やすため、複雑な推論作業、特に科学[1]および数学[1]においてより効果的である。以前のモデルと比較して、o1は最終的な回答を返す前に長い「思考連鎖」を生成するようにトレーニングされている[11][12]ミラ・ムラティによると、この応答前に思考する能力は、新しい追加のパラダイムを表しており[13]、回答の生成時により多くの計算能力を費やすことによってモデルの出力を向上させている。一方、モデルスケーリングパラダイムは、モデルサイズ、トレーニングデータ、およびトレーニング計算能力を増加させることによって出力を向上させる[14]。OpenAIのテスト結果は、精度と、回答前に思考に費やされた計算量の対数の間に相関関係があることを示唆している[12][11]

o1-previewは、物理学、化学、生物学に関するベンチマークテストで、ほぼ博士号レベルのパフォーマンスを示した[15]アメリカ数学招待競技英語版では、GPT-4oの13%(1.8/15)に対し、83%(12.5/15)の問題に正答した[16]。また、Codeforces英語版コーディング競技では89パーセンタイルにランクインした[17]。o1-miniはo1-previewよりも高速で80%安価である[18]。プログラミングおよびSTEM関連のタスクに特に適しているが、o1-previewと同じ「幅広い世界知識」は持っていない[19]

OpenAIは、o1の推論能力により、プロンプトのコンテキストウィンドウで提供される安全規則をよりよく遵守できると述べている。OpenAIは、テスト中に、o1-previewの1つのインスタンスが、バグのために実行不可能であるはずのタスクを成功させるために、誤設定を悪用したと報告した[20][21]。また、OpenAIは、研究、評価、およびテストのために、英国および米国のAIセーフティ・インスティテュートに早期アクセスを許可した。ダン・ヘンドリックス英語版は、「このモデルは、生物兵器に関する質問への回答において、ほとんどの場合、博士号を持つ科学者を凌駕している」と述べた[22]。彼は、これらの懸念される能力は今後も増加し続けると示唆した[23]

制限

o1は、最終的な応答を行う前に長い思考連鎖を生成するため、通常、OpenAIの他のGPTモデルよりも多くの計算時間と電力が必要となる[11]

OpenAIによると、o1は約0.38パーセントのケースで「アライメントの偽装」[24]、つまり、精度とその自身の思考連鎖に反する応答を生成することがある。

OpenAIは、ユーザーがo1の思考連鎖を明らかにしようと試みることを禁じている。これは設計上隠されており、OpenAIはユーザーが同社のポリシーに違反しないよう求めている。プロンプトは監視されており[25]、意図的または誤ってこれを違反したユーザーは警告を受け、o1へのアクセスを失う可能性がある[26]。OpenAIは、この制限の理由としてAIの安全性と競争上の優位性を挙げているが[27]、これは大規模言語モデルを扱う開発者によって透明性の喪失として説明されている[28]

ベンチマークスコア

OpenAI o1のベンチマークスコアは以下のようになっている[29]

GPT-4o OpenAI o1

機械学習ベンチマーク
ベンチマーク 正答率/%
MATH-500 60.3 / 94.8
MathVista 63.8 / 73.2
MMMU 69.1 / 78.1
MMLU 88.0 / 92.3
PhDレベルの科学問題 (GPQA Diamond)
科目 正答率/%
化学 40.2 / 64.7
物理 59.5 / 92.8
生物 61.6 / 69.2
試験(APSATLSAT英語版
試験 正答率/%
AP英語(言語) 52.0 / 64.0
AP英語(文学) 68.7 / 69.0
AP物理2 69.0 / 89.0
AP微積分 71.3 / 85.2
AP化学 83.0 / 93.0
LSAT 87.8 / 98.9
SAT EBRW 91.3 / 93.8
SAT数学 100.0 / 100.0
MMLU(様々な分野)
カテゴリ 正答率/%
世界的事実 65.1 / 78.4
大学化学 68.9 / 78.1
大学数学 75.2 / 98.1
法律 75.6 / 85.0
広報 76.8 / 80.7
計量経済学 78.8 / 87.1
形式論理学 79.8 / 97.0
道徳 80.3 / 85.8

脚注

  1. ^ a b c d e f g Metz, Cade (September 12, 2024). “OpenAI Unveils New ChatGPT That Can Reason Through Math and Science”. The New York Times. 2024年10月1日閲覧。
  2. ^ Nakano, Will Knight,Mamiko (2024年9月13日). “OpenAI、推論する新AIモデル「o1」を発表。規模以外での進化を示す”. WIRED.jp. 2024年9月17日閲覧。
  3. ^ a b c d Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'”. Reuters (July 15, 2024). 2024年10月1日閲覧。
  4. ^ “OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say”. Reuters. (November 23, 2023). https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/ 2024年10月1日閲覧。 
  5. ^ Peters, Jay (September 12, 2024). “GitHub has started testing OpenAI's o1-preview in GitHub Copilot.”. The Verge. 2024年10月1日閲覧。
  6. ^ a b c d e Robison, Kylie (September 12, 2024). “OpenAI releases o1, its first model with ‘reasoning’ abilities” (英語). The Verge. 2024年10月1日閲覧。
  7. ^ a b c 12 Days of OpenAI” (英語). openai.com. 2024年12月8日閲覧。
  8. ^ a b Introducing ChatGPT Pro” (英語). openai.com. 2024年12月8日閲覧。
  9. ^ OpenAI o1 System Card” (英語). openai.com. 2024年12月8日閲覧。
  10. ^ OpenAI Accidentally Leaked Its Upcoming o1 Model to Anyone With a Certain Web Address”. Futurism (2024年11月4日). 2024年11月4日閲覧。
  11. ^ a b c Learning to Reason with LLMs”. OpenAI. September 12, 2024時点のオリジナルよりアーカイブ。2024年10月1日閲覧。
  12. ^ a b Kahn, Jeremy. “Here are 9 things you need to know about OpenAI's o1 model” (英語). Fortune. 2024年10月1日閲覧。
  13. ^ Knight, Will. “OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step” (英語). Wired. ISSN 1059-1028. https://www.wired.com/story/openai-o1-strawberry-problem-reasoning/ 2024年10月1日閲覧。 
  14. ^ Knight, Will. “OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step” (英語). Wired. ISSN 1059-1028. https://www.wired.com/story/openai-o1-strawberry-problem-reasoning/ 2024年10月1日閲覧。 
  15. ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
  16. ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
  17. ^ Franzen, Carl (September 12, 2024). “Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance” (英語). VentureBeat. 2024年10月1日閲覧。
  18. ^ OpenAI o1-mini”. OpenAI (September 12, 2024). 2024年10月1日閲覧。
  19. ^ OpenAI o1-mini”. OpenAI (September 12, 2024). 2024年10月1日閲覧。
  20. ^ Coombes, Lloyd (September 13, 2024). “OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened” (英語). Tom's Guide. 2024年10月1日閲覧。
  21. ^ OpenAI o1 System Card”. OpenAI. pp. 16-17 (September 12, 2024). 2024年10月1日閲覧。
  22. ^ Boran, Marie (September 13, 2024). “OpenAI o1 model warning issued by scientist: "Particularly dangerous"” (英語). Newsweek. 2024年10月1日閲覧。
  23. ^ Boran, Marie (September 13, 2024). “OpenAI o1 model warning issued by scientist: "Particularly dangerous"” (英語). Newsweek. 2024年10月1日閲覧。
  24. ^ Robison, Kylie (17 September 2024). “OpenAI’s new model is better at reasoning and, occasionally, deceiving” (英語). The Verge. https://www.theverge.com/2024/9/17/24243884/openai-o1-model-research-safety-alignment 2024年10月1日閲覧。 
  25. ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica. https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process/ 2024年10月1日閲覧。 
  26. ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica. https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process/ 2024年10月1日閲覧。 
  27. ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica. https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process/ 2024年10月1日閲覧。 
  28. ^ Edwards, Benj (16 September 2024). “Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model” (英語). Ars Technica. https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process/ 2024年10月1日閲覧。 
  29. ^ Learning to Reason with LLMs”. OpenAI. 2024年10月5日閲覧。

Read other articles:

RenangInduk organisasiFederasi Renang Internasional (FINA)KeberadaanOlimpiadesejak 1896 Renang adalah gerakan berpindah tempat secara teratur di air dengan cepat menggunakan tangan dan kaki. Gaya renang yang diperlombakan adalah gaya bebas, gaya kupu-kupu, gaya punggung dan gaya dada. Perenang yang memenangkan lomba renang adalah perenang yang menyelesaikan jarak lintasan tercepat. Pemenang babak penyisihan maju ke babak semifinal, dan pemenang semifinal maju ke babak final. Bersama-sama deng...

 

Amonium klorida Nama Nama IUPAC Ammonium chloride Nama lain Sal amoniak, Salmiac, Nushadir salt, Sal armagnac, Salt armoniack Penanda Nomor CAS 12125-02-9 Y Model 3D (JSmol) Gambar interaktif 3DMet {{{3DMet}}} ChEBI CHEBI:31206 Y ChemSpider 23807 Y Nomor EC KEGG D01139 Y Nomor RTECS {{{value}}} UNII 01Q9PC255D Y CompTox Dashboard (EPA) DTXSID0020078 InChI InChI=1S/ClH.H3N/h1H;1H3 YKey: NLXLAEXVIDQMFP-UHFFFAOYSA-N YInChI=1/ClH.H3N/h1H;1H3Key: NLXLA...

 

«  Distanciation sociale » redirige ici. Ne pas confondre avec espace vital. Pour les articles homonymes, voir Distanciation. Respect des distances physiques dans la queue (avec marquage au sol) d'un bureau de poste à Genève en avril 2020. Affiche de l'Office suisse de la santé publique recommandant de « garder ses distances » pendant la pandémie de coronavirus de 2019-2020. Marquages au sol pour favoriser le respect des distances physiques au Dolores Park de San ...

2017 Élections législatives de 2022 dans l'Indre 2 sièges de députés à l'Assemblée nationale 12 et 19 juin 2022 Type d’élection Élections législatives Corps électoral et résultats Inscrits 166 141 Votants au 1er tour 84 043   50,59 %  1,3 Votes exprimés au 1er tour 81 490 Votes blancs au 1er tour 1 719 Votes nuls au 1er tour 834 Votants au 2d tour 79 321   47,74 %  1,2 Votes exprimés au 2d tour 71 097 Votes ...

 

1959 film by George Marshall The Mating Gametheatrical posterDirected byGeorge MarshallWritten byWilliam RobertsBased onThe Darling Buds of May1958 novelby H. E. BatesProduced byPhilip Barry, Jr.StarringDebbie ReynoldsTony RandallPaul DouglasFred ClarkUna MerkelCinematographyRobert J. BronnerEdited byJohn McSweeney, Jr.Music byJeff AlexanderProductioncompanyMetro-Goldwyn-MayerRelease date April 29, 1959 (1959-04-29) (U.S.) Running time96 minutesCountryUnited StatesLanguageE...

 

Form of socialism based on religious values Part of a series onSocialism HistoryOutline Development Age of the Enlightenment French Revolution Revolutions of 1848 Socialist calculation debate Socialist economics Ideas Calculation in kind Collective ownership Cooperative Common ownership Critique of political economy Economic democracy Economic planning Equal liberty Equal opportunity Free association Freed market Industrial democracy Input–output model Internationalism Labor-time calculatio...

Candi Sewuꦕꦤ꧀ꦝꦶꦱꦺꦮꦸCandi induk dari Candi Sewu, 2013. Kiri-kanan sepasang Dwarapala.AgamaAfiliasiBuddhismeProvinsiJawa TengahFestivalWaisakStatusMasih digunakanLokasiMunisipalitasKlatenNegaraIndonesiaArsitekturTipeCandiRampung782 MSpesifikasiArah fasadTimurPanjang185 meter (607 ft)Lebar165 meter (541 ft)Tinggi maksimum30 meter (98 ft)Jumlah bangunan249 (satu candi induk, delapan candi apit, dan 240 candi perwara)PrasastiPrasasti ManjusrigrhaBahan bangunanBatu ...

 

Book of Proverbs, chapter 30 Proverbs 30← chapter 29chapter 31 →The whole Book of Proverbs in the Leningrad Codex (1008 C.E.) from an old fascimile edition.BookBook of ProverbsCategoryKetuvimChristian Bible partOld TestamentOrder in the Christian part21 Proverbs 30 is the 30th chapter of the Book of Proverbs in the Hebrew Bible or the Old Testament of the Christian Bible.[1][2] The book is a compilation of several wisdom literature collections: the heading in Pro...

 

Bataille de Meerhout Informations générales Date 12 novembre 1798 Lieu Meerhout et Geel Issue Victoire des insurgés Belligérants  République française Paysans contre-révolutionnaires Commandants • Gaspard Chabert • Emmanuel Jozef van Gansen (nl) Forces en présence 1 050 hommes[1] ~ 3 000 à 10 000 hommes[1] Pertes inconnues 200 morts[2](selon les Républicains) Batailles Saint-Nicolas 1er Boom Merchtem Zele Malines 2e Boom Hooglede Moo...

Danish racing cyclist Frederik WandahlWandahl in 2019Personal informationBorn (2001-05-09) 9 May 2001 (age 22)Höllviken, SwedenTeam informationCurrent teamBora–HansgroheDisciplineRoadRoleRiderProfessional teams2020Team ColoQuick[1]2021–Bora–Hansgrohe[2] Frederik Michal Anker Wandahl (born 9 May 2001) is a Danish cyclist, who currently rides for UCI WorldTeam Bora–Hansgrohe.[3][4] Major results 2018 1st Road race, National Junior Road Champion...

 

Cet article est une ébauche concernant l’Italie et le Concours Eurovision de la chanson. Vous pouvez partager vos connaissances en l’améliorant (comment ?) ; pour plus d’indications, visitez le projet Italie. Italieau Concours Eurovision 1988 Données clés Pays  Italie Chanson Vivo (Ti scrivo) Interprète Luca Barbarossa Compositeur Luca Barbarossa Parolier Luca Barbarossa Langue Italien Sélection nationale Radiodiffuseur RAI Type de sélection Sélection interne Con...

 

Matthias CastrénLahirMatthias Alexander Castrén(1813-12-02)2 Desember 1813Tervola, Keharyapatihan FinlandiaMeninggal7 Mei 1852(1852-05-07) (umur 38)Helsingfors, Keharyapatihan Finlandia, Kekaisaran RusiaAlmamaterUniversitas Kekaisaran AlexanderDikenal atasmeneliti bahasa-bahasa Finno-Ugrik dan SamoyedikKarier ilmiahInstitusiUniversitas Kekaisaran Alexander Matthias Alexander Castrén (2 Desember 1813 – 7 Mei 1852) merupakan seorang ahli etnologi dan ahli filologi berkebangsaan Swedi...

Supercoppa cipriota 2021 Competizione Supercoppa cipriota Sport Pallavolo Edizione 28ª Organizzatore KOPE Date 15 ottobre 2021 Luogo  Cipro Partecipanti 2 Risultati Vincitore  Omonia(7º titolo) Secondo  Paralimni Statistiche Incontri disputati 1 Cronologia della competizione 2019 2022 Manuale La Supercoppa cipriota 2021, 28ª edizione della supercoppa nazionale di pallavolo maschile, si è svolta il 15 ottobre 2021: al torneo hanno partecipato due squadre di club ciprio...

 

Municipality and town in Hidalgo, MexicoMolangoMunicipality and town SealMolangoLocation in MexicoCoordinates: 20°47′04″N 98°43′03″W / 20.78444°N 98.71750°W / 20.78444; -98.71750Country MexicoStateHidalgoMunicipal seatMolango de EscamillaArea • Total246.7 km2 (95.3 sq mi)Population (2005) • Total10,385 Molango (officially Molango de Escamilla ) is a town and one of the 84 municipalities of Hidalgo, in central...

 

Firebombing raid on Tokyo in World War II Bombing of TokyoPart of the Bombing of Tokyo and Air raids on Japan during World War IIA road passing through a part of Tokyo which was destroyed in the 10 March 1945 air raidDate9/10 March 1945LocationTokyo, Japan35°41′58″N 139°47′47″E / 35.69944°N 139.79639°E / 35.69944; 139.79639Result American victoryBelligerents  United States  JapanCommanders and leaders Curtis LeMayThomas S. Power Shizuichi TanakaU...

Chinese military unit This article is missing information about post-reform restructuring. Please expand the article to include this information. Further details may exist on the talk page. (October 2022)71st Group Army第七十一集团军Active1949–presentCountry People's Republic of ChinaAllegiance Chinese Communist PartyBranch People's Liberation Army Ground ForceTypeGroup armyPart ofEastern Theater CommandGarrison/HQHeping Road in the Yunlong District of Xuzhou in Jiangs...

 

1983 anti-Tamil riots in Sri Lanka Black JulyPart of riots in Sri Lanka, the Sri Lankan Civil War, and the Tamil genocideA Tamil youth stripped naked before being killed by Sinhalese rioters near Borella bus stand.[1][2][3]Location of Sri LankaLocationSri LankaDate24 July 1983 (1983-07-24) – 30 July 1983 (1983-07-30) (UTC+6)TargetPrimarily Sri Lankan TamilsAttack typePogrom, ethnic cleansing, mass murder, genocideWeaponsAxes, guns, explo...

 

German fashion designer Glööckler in 2019 Harald Glööckler, real name Harald Glöckler[1] (born 30 May 1965[2] in Maulbronn), is a German fashion designer and entrepreneur, who became famous mainly for his rhinestone-studded and glittering creations.[3] His trademark is a crown motif, which is often supplemented by a POMPÖÖS lettering. Early life Glööckler's parents owned a restaurant. He has a brother who is two years his junior.[4] Glööckler describ...

Computer built using discrete transistors IBM 1620 A transistor computer, now often called a second-generation computer,[1] is a computer which uses discrete transistors instead of vacuum tubes. The first generation of electronic computers used vacuum tubes, which generated large amounts of heat, were bulky and unreliable. A second-generation computer, through the late 1950s and 1960s featured circuit boards filled with individual transistors and magnetic-core memory. These machines r...

 

Ethnic group native to China Ethnic group Pumi Alternative names:P'umi, Primi, Pimi, PrummiTotal population30,000Regions with significant populationsChina – Yunnan:   30,000LanguagesPumiReligionBon, Tibetan Buddhism, DingbaRelated ethnic groupsTibetan (mainly those living in Mili, Sichuan) The Pumi (also Primi or Premi)[1] people (Tibetan: བོད་མི་, Wylie: bod mi, Chinese: 普米族; pinyin: Pǔmǐzú, autonym: /pʰʐə̃˥.mi˥/) are an ethnic gro...