Підмайстрове навчання

У сфері штучного інтелекту підмайстрове навчання (або навчання на основі демонстрації чи імітаційне навчання) — це процес навчання шляхом спостереження експерта.[1][2] Його можна розглядати як форму навчання під керівництвом, де навчальний набір даних складається з виконання завдань учителем-демонстрацією.[2]

Підхід функції відображення

Методи відображення намагаються імітувати експерта, шляхом формування прямого відображення або від станів до дій,[2] або від станів до значень винагороди[1]. Наприклад, у 2002 році дослідники використали такий підхід, щоб навчити робота AIBO базовим футбольним навичкам.[2]

Навчальний підхід із зворотним підкріпленням

Навчання зі зворотним підкріпленням (IRL) — це процес виведення функції винагороди з поведінки, що спостерігається. У той час як звичайне «навчання з підкріпленням» передбачає використання винагород і покарань для вивчення поведінки, у IRL напрямок змінюється, і робот спостерігає за поведінкою людини, щоб зрозуміти, яку мету ця поведінка, здається, намагається досягти.[3] Проблему IRL можна визначити як:[4]

Дано 1) вимірювання поведінки агента в часі за різних обставин; 2) вимірювання сенсорних вхідних даних для цього агента; 3) модель фізичного середовища (включаючи тіло агента): визначте функцію винагороди, яку оптимізує агент.

Дослідник IRL Стюарт Дж. Рассел[en] припускає, що IRL можна використовувати для спостереження за людьми та спроб кодифікації їхніх складних «етичних цінностей», намагаючись створити «етичних роботів», які одного разу знатимуть, що «не варити твого кота», без необхідності казати їм цього напряму.[5] Сценарій можна змоделювати як «кооперативну інверсну навчальну гру з підкріпленням», де гравець «людина» та гравець «робот» співпрацюють, щоб забезпечити неявні цілі людини, незважаючи на те, що ці цілі явно не відомі ні людині, ні роботу.[6][7]


У 2017 році OpenAI і DeepMind застосували глибоке навчання до кооперативного навчання зворотного підкріплення в простих областях, таких як ігри Atari, і звичайні завдання роботів, такі як сальто назад. Роль людини обмежувалася відповіддю на запити робота щодо того, яка з двох різних дій є кращою. Дослідники знайшли докази того, що методи можуть бути економічно масштабованими для сучасних систем.[8][9]

Підмайстрове навчання через зворотне підкріплююче навчання (AIRP) було розроблено у 2004 році Пітером Аббілом[en], професором кафедри EE CS Берклі, та Ендрю Нґом, доцентом факультету комп’ютерних наук Стенфордського університету. AIRP має справу з «Марковським процесом прийняття рішень, де нам явно не надається функція винагороди, але замість цього ми можемо спостерігати, як експерт демонструє завдання, яке ми хочемо навчитися виконувати»[1]. AIRP використовувався для моделювання функцій винагороди у високодинамічних сценаріях, де інтуїтивно немає очевидної функції винагороди. Візьмемо, наприклад, завдання керування автомобілем. Є багато різних цілей, які виконуються одночасно - наприклад, підтримувати безпечну дистанцію, хорошу швидкість, не надто часто змінювати смугу руху тощо. Це завдання може здатися легким на перший погляд, але тривіальна функція винагороди може не збігатися з бажаною політикою.

Системний модельний підхід

Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.[2]

Плановий підхід

Система вивчає правила, щоб пов’язувати передумови та постумови з кожною дією. В одній демонстрації 1994 року гуманоїд вивчає узагальнений план лише з двох демонстрацій повторюваного завдання зі збору м’яча.[2]

Приклад

Навчання на демонстрації часто пояснюється з точки зору того, що робоча система керування роботом[en] доступна і людина-демонстратор використовує її. І справді, якщо програмне забезпечення працює, людина-оператор бере робо-руку, робить нею рух, а робот потім відтворює дію. Наприклад, він вчить робо-руку, як поставити чашку під кавоварку і натиснути кнопку запуску. У фазі відтворення робот імітує цю поведінку 1 в 1. Але це не те, як система працює всередині; це лише те, що може спостерігати глядач. Насправді навчання на демонстрації набагато складніше. Однією з перших робіт про навчання роботів-учнів (антропоморфні роботи, що навчаються шляхом імітації) була докторська дисертація Адріана Стойки в 1995 році[10].

У 1997 році експерт з робототехніки Стефан Шаал[en] працював над роботом-рукою Sarcos. Мета була проста: розв’язати задачу про розгойдування маятника. Робот сам може виконувати рух, і в результаті маятник рухається. Проблема в тому, що незрозуміло, які дії призведуть до якого руху. Це задача оптимального керування, яку можна описати математичними формулами, але її важко вирішити. Ідея Шаала полягала в тому, щоб не використовувати пошук грубою силою, а записувати рухи людини-демонстрації. Кут маятника реєструється протягом трьох секунд по осі y. Це призводить до діаграми, яка створює візерунок.[11]

Траєкторія в часі
час (секунди) кут (радіани)
0 -3.0
0.5 -2.8
1.0 -4.5
1.5 -1.0

У комп’ютерній анімації цей принцип називається сплайн-анімацією[en][12]. Це означає, що на осі абсцис задано час, наприклад 0,5 секунди, 1,0 секунди, 1,5 секунди, а на осі у – задана змінна. У більшості випадків це положення об’єкта. У перевернутому маятнику це кут.

Загальне завдання складається з двох частин: запис кута в часі та відтворення записаного руху. Етап відтворення напрочуд простий. Як вхідні дані ми знаємо, на якому кроці часу який кут має мати маятник. Переведення системи в стан називається «контролем стеження» або ПІД-регулюванням. Це означає, що у нас є траєкторія в часі, і ми повинні знайти керуючі дії, щоб відобразити систему на цю траєкторію. Інші автори називають принцип «кермовою поведінкою»[13], оскільки метою є привести робота до заданої лінії.

Дивись також

Список літератури

  1. а б в "Apprenticeship learning via inverse reinforcement learning". Pieter Abbeel, Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
  2. а б в г д е Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). A survey of robot learning from demonstration. Robotics and Autonomous Systems. 57 (5): 469—483. doi:10.1016/j.robot.2008.10.024. S2CID 1045325.
  3. Wolchover, Natalie. This Artificial Intelligence Pioneer Has a Few Concerns. WIRED. Процитовано 22 січня 2018.
  4. Russell, Stuart (1998). Learning agents for uncertain environments. Proceedings of the eleventh annual conference on Computational learning theory. с. 101—103. doi:10.1145/279943.279964.
  5. Havens, John C. (23 червня 2015). The ethics of AI: how to stop your robot cooking your cat. the Guardian. Процитовано 22 січня 2018.
  6. Artificial Intelligence And The King Midas Problem. Huffington Post. 12 грудня 2016. Процитовано 22 січня 2018.
  7. Hadfield-Menell, D., Russell, S. J., Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
  8. Two Giants of AI Team Up to Head Off the Robot Apocalypse. WIRED. 7 липня 2017. Процитовано 29 січня 2018.
  9. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).
  10. Stoica, Adrian (1995). Motion learning by robot apprentices : a fuzzy neural approach (Дипломна робота) (англ.). Victoria University of Technology.https://vuir.vu.edu.au/15323/
  11. Atkeson, Christopher G., and Stefan Schaal (1997). Learning tasks from a single demonstration. Proceedings of International Conference on Robotics and Automation (PDF). Т. 2. IEEE. с. 1706—1712. doi:10.1109/robot.1997.614389. ISBN 978-0-7803-3612-4.
  12. Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L. Thomaz (2012). Keyframe-based Learning from Demonstration (PDF). International Journal of Social Robotics. 4: 343—355. doi:10.1007/s12369-012-0160-0.
  13. Reynolds, Craig W. (1999). Steering behaviors for autonomous characters. Game developers conference. с. 763—782.

Read other articles:

1964 film The CarpetbaggersU.S. poster artDirected byEdward DmytrykScreenplay byJohn Michael HayesBased onThe Carpetbaggersby Harold RobbinsProduced byJoseph E. LevineStarring George Peppard Alan Ladd Bob Cummings Martha Hyer Elizabeth Ashley Lew Ayres Martin Balsam Ralph Taeger Archie Moore Leif Erickson Carroll Baker CinematographyJoseph MacDonaldEdited byFrank BrachtMusic byElmer BernsteinColor processTechnicolorProductioncompanyEmbassy PicturesDistributed byParamount PicturesRelease date ...

 

PrayaKecamatanNegara IndonesiaProvinsiNusa Tenggara BaratKabupatenLombok TengahPemerintahan • CamatBaiq MurniatiPopulasi (30 Juni 2023) • Total131.929 jiwa • Kepadatan4.239/km2 (10,980/sq mi)Kode Kemendagri52.02.01 Kode BPS5202060 Situs webkec-praya.lomboktengahkab.go.id Praya adalah sebuah kecamatan di kabupaten Lombok Tengah, Nusa Tenggara Barat, Indonesia yang juga merupakan ibu kota dari Kabupaten Lombok Tengah terletak antara 115°46 - 1...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Februari 2023. Psilocybe hoogshagenii https://en.wikipedia.org/wiki/null Psilocybe hoogshagenii in Mocoa, Putumayo Dept, Colombia Scientific classification Kingdom: Fungi Division: Basidiomycota Class: Agaricomycetes Order: Agaricales Family: Hymenogastraceae Genus:...

Cet article est une ébauche concernant une élection en France et l’Ille-et-Vilaine. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. 1998 2004 Élections cantonales de 2001 en Ille-et-Vilaine 26 des 53 cantons d'Ille-et-Vilaine les 11 et 18 mars 2001 Type d’élection Élections cantonales Corps électoral et résultats Inscrits 308 490 Votants au 1er tour 204 978   66,45 % Votes e...

 

Mazmur 23Naskah Gulungan Mazmur 11Q5 di antara Naskah Laut Mati memuat salinan sejumlah besar mazmur Alkitab yang diperkirakan dibuat pada abad ke-2 SM.KitabKitab MazmurKategoriKetuvimBagian Alkitab KristenPerjanjian LamaUrutan dalamKitab Kristen19← Mazmur 22 Mazmur 24 → Mazmur 23 (disingkat Maz 23, Mzm 23 atau Mz 23; penomoran Septuaginta: Mazmur 22) adalah sebuah mazmur dalam bagian ke-1 Kitab Mazmur di Alkitab Ibrani dan Perjanjian Lama dalam Alkitab Kristen.[1] Mazmur ...

 

Penjualan tekstil di Karachi, Pakistan. Tekstil atau wastra aalah material fleksibel yang terbuat dari tenunan benang. Tekstil dibentuk dengan cara penyulaman, penjahitan, pengikatan, dan cara ''pressing''. Istilah tekstil dalam pemakaiannya sehari-hari sering disamakan dengan istilah kain. Namun ada sedikit perbedaan antara dua istilah ini, tekstil dapat digunakan untuk menyebut bahan apapun yang terbuat dari tenunan benang, sedangkan kain merupakan hasil jadinya, yang sudah bisa digunakan. ...

Julien KangJulien Kang pada Februari 2012Lahir11 April 1982 (umur 41)Saint-Pierre dan Miquelon, PrancisKebangsaan Prancis, KanadaPekerjaanAktor, ModelTahun aktif2008 – sekarangAgenJellyfish Entertainment (2015-sekarang)Tinggi1.943 cm (63 ft 9 in) (6'4.5)Berat93kg (204 lb.)Nama KoreaHangul줄리엔 강 Hanja줄리엔 姜 Alih AksaraJullien GangMcCune–ReischauerChullien Kang Julien Kang (Hangul: 줄리엔 강; Hanja: 줄리엔·姜; lahir 11 A...

 

County in Mississippi, United States County in MississippiJefferson CountyCountyHistoric Christ Church, Church Hill, Mississippi.Location within the U.S. state of MississippiMississippi's location within the U.S.Coordinates: 31°44′N 91°02′W / 31.73°N 91.03°W / 31.73; -91.03Country United StatesState MississippiFounded1799Named forThomas JeffersonSeatFayetteLargest cityFayetteArea • Total527 sq mi (1,360 km2) • La...

 

TangutJenis aksara Logogram BahasaBahasa TangutPenciptaYeli RenrongPeriode1036–1502Arah penulisanKiri ke kananAksara terkaitSilsilahAksara Tulang RamalanAksara SegelAksara rohaniwanAksara Buatan, dengan inspirasi yang berasal dari karakter HanziTangutISO 15924ISO 15924Tang, 520 , ​Tangut Artikel ini mengandung transkripsi fonetik dalam Alfabet Fonetik Internasional (IPA). Untuk bantuan dalam membaca simbol IPA, lihat Bantuan:IPA. Untuk penjelasan perbedaan [...

Geng motor Dykes on Bikes dalam sebuah acara pride, menunjukkan stereotip lesbian butch. Stereotip lesbian, gay, biseksual dan transgender (LGBT) adalah generalisasi, opini, atau citra yang didasarkan pada orientasi seksual atau identitas gender orang-orang LGBT. Stereotip-stereotip dapat diperoleh dari interaksi dengan orang tua, guru, rekan sejawat, dan media massa,[1] dan pada umumnya dipicu oleh kurangnya interaksi secara langsung dengan orang-orang LGBT sehingga pemahaman menjadi...

 

Australian politician The Honourable CouncillorLawrence SpringborgAMLeader of the Opposition in QueenslandElections: 2004, 2006, 2009In office14 February 2015 – 6 May 2016PremierAnnastacia PalaszczukDeputyJohn-Paul LangbroekPreceded byAnnastacia PalaszczukSucceeded byTim NichollsIn office21 January 2008 – 2 April 2009PremierAnna BlighDeputyFiona SimpsonMark McArdlePreceded byJeff SeeneySucceeded byJohn-Paul LangbroekIn office4 February 2003 – 18 September 2006...

 

Questa voce o sezione sull'argomento nobili francesi non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. Nicola I di LorenaNicola I in un dipinto del XVII secoloDuca di LorenaStemma In carica16 dicembre 1470 –27 luglio 1473 PredecessoreGiovanni II SuccessoreRenato II Nome completoNicola d'Angiò Altri titoliDuca di Calabria NascitaNancy, 1448 Mo...

Provincia di Salernoprovincia Provincia di Salerno – VedutaPalazzo Sant'Agostino, sede della provincia LocalizzazioneStato Italia Regione Campania AmministrazioneCapoluogoSalerno PresidenteFrancesco Alfieri (PD) dal 20-11-2022[1] Data di istituzione1806 TerritorioCoordinatedel capoluogo40°41′N 14°46′E / 40.683333°N 14.766667°E40.683333; 14.766667 (Provincia di Salerno)Coordinate: 40°41′N 14°46′E / 40.683333°N 14....

 

Final Piala Liga Inggris 2005TurnamenPiala Liga Inggris 2004–2005 Chelsea Liverpool 3 2 Tanggal27 Februari 2005StadionStadion Millennium, CardiffPemain Terbaik John Terry (Chelsea)[1]WasitSteve Bennett (Kent)Penonton71.622[2]← 2004 2006 → Final Piala Liga Inggris 2005 adalah pertandingan final ke-45 dari turnamen sepak bola Piala Liga Inggris untuk menentukan juara musim 2004–2005. Pertandingan ini diselenggarakan pada 27 Februari 2005 di Stadion Millennium. Ch...

 

Sidik Kertapati Anggota Dewan Perwakilan RakyatMasa jabatan1950 – 26 Juni 1960PresidenSoekarno Informasi pribadiLahir(1920-04-19)19 April 1920Klungkung, Bali, Hindia BelandaMeninggal2 Juli 2007(2007-07-02) (umur 87)Jakarta, IndonesiaKebangsaanIndonesiaPartai politikPartai Komunis IndonesiaSuami/istriSiti Rukiah ​(m. 1952)​Anak6Sunting kotak info • L • B Sidik Kertapati (19 April 1920 – 2 Juli 2007) adalah seorang anggo...

Sports Direct Arena Informasi stadionNama lamaSt (reece) James' ParkPemilikNewcastle UnitedLokasiLokasiSt James' ParkNewcastle upon Tyne NE1 4ST InggrisKoordinat54°58′32″N 1°37′18″W / 54.97556°N 1.62167°W / 54.97556; -1.62167Koordinat: 54°58′32″N 1°37′18″W / 54.97556°N 1.62167°W / 54.97556; -1.62167KonstruksiDibuka1892Diperbesar1998–2000ArsitekTTH Architects, Gateshead UKData teknisPermukaanRumputKapasitas52,387Pem...

 

Хип-хоп Направление популярная музыка Истоки фанкдискоэлектронная музыкадабритм-энд-блюзреггидэнсхоллджаз[1]чтение нараспев[англ.]исполнение поэзииустная поэзияозначиваниедюжины[англ.]гриотыскэтразговорный блюз Время и место возникновения Начало 1970-х, Бронкс, Н...

 

Public school in Cape Town, Western Cape, South AfricaGardens Commercial High SchoolGardens Commercial High School crestAddressPaddock Avenue, GardensCape Town, Western CapeSouth AfricaCoordinates33°55′49″S 18°24′56″E / 33.93028°S 18.41556°E / -33.93028; 18.41556InformationTypePublic schoolMottoFloreat - FlourishEstablished1961; 63 years ago (1961)School districtDistrict 9School number021 465 1236PrincipalMr Dylan TommyGrades8–12GenderBo...

Cessna CitationJet redirects here. For the military trainer, see Cessna 526 CitationJet. Light business jet CitationJet/CJ/M2 series A 525A CJ2, gear and flaps extended Role Business jetType of aircraft National origin United States Manufacturer Cessna First flight 29 April 1991[1] Status Active, in production Produced 1991-present Number built 2000 as of June 8, 2017[2] Developed from Cessna Citation II Developed into Cessna 526 CitationJet The Cessna CitationJet/CJ/M2 (also ...

 

Artikel ini bukan mengenai George Fiddes Watt. George Frederic WattsLahir(1817-02-23)23 Februari 1817Marylebone, Middlesex, InggrisMeninggal1 Juli 1904(1904-07-01) (umur 87)London, InggrisKebangsaanBritania RayaPendidikanWilliam BehnesRoyal AcademyDikenal atasLukis, pahatKarya terkenalHopeLove and LifePhysical EnergyGerakan politikSimbolisPenghargaanOrder of MeritPatron(s)Alexander Constantine Ionides Miss May Prinsep George Frederic Watts OM RA (23 Februari 1817 – 1 Juli...