推理語言模型推理語言模型(英語:Reasoning language model),或稱推理大模型或大型推理模型,是一個進階的大型語言模型,它能經過進一步訓練,可以解決多步驟推理任務。推理語言模型在邏輯、數學或程式任務上的表現,一般都比傳統的自我迴歸的大型語言模型更好,具有回溯能力,並使用時間測試計算作為訓練範例、參數計數。[1] 歷史Open AI 在2024年9月推出o1-preview,為首個擁有高階推理能力的大型語言模型.[2] 2024年12月, Open AI 推出 o1 正式版,並宣佈推出o3 [3] 推理語言模型發展證明了 Rich Sutton 所說的「慘痛教訓」:利用計算的通用方法,往往比依賴特定人類洞察力的方法表現更好。[4] 例如,一些科研團隊,如Generative AI Research Lab (GAIR),最初探索了諸如树的遍历和強化學習等複雜技術,試圖複製 o1 的能力。然而,正如他們在《o1 複製之旅》論文中所記錄的那樣,他們發現知識蒸餾——訓練一個較小的模型來模仿 o1 的輸出——效果出奇地好,這凸顯了知識蒸餾的威力。 阿里巴巴在2024年11月,也推出了另一個推理語言模型Qwen。在2024年12月,Google在它的語言模型Gemini中推出深度研究 (Deep Research)功能[5]。2025年1月,深度求索推出Deepseek R1,以更低成本做到如o1一樣的推理效果。[6]2025年2月,OpenAI推出OpenAI Deep Research,一種將推理和網路搜尋整合到大型語言模型的工具,允許使用者可以選擇執行多步驟推理,以及搜查多個來源的資料合成的複雜研究任務。 參考
參見 |
Index:
pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve