Как би се научил робот с машинно обучение Velociraptor да играе вратар?
Как би се научил робот с машинно обучение Velociraptor да играе вратар?
Видео: Как би се научил робот с машинно обучение Velociraptor да играе вратар?
Видео: ЭЛАСТИКО vs РОБОТ ВРАТАРЬ НА МАКСИМАЛКАХ | ЧЕЛЛЕНДЖ | ROBOKEEPER 2023, Февруари
Anonim

Първоначално публикувано на Medium.

1,5-метровият сребристосив велоцираптор се хвърля напред, прекъсвайки полета на тенис топката с глава, преди топката да стигне до футболната мрежа в края на фитнеса. Опашката му се изпъва, спирайки друга топка. Той се върти, донякъде несръчно, и тича три стъпки в другата посока, за да прихване трета топка.

Роботи, изграждащи Тесла
Роботи, изграждащи Тесла

Роботите, изграждащи Тесла, не са толкова усъвършенствани като AI велоцирапторите, които имат тенденция към целите

Прави това от час, тичайки напред-назад, докато трио машини за тенис топки хвърлят жълти топки по различни лупи начини към мрежата. Това е игра, която създателите й са измислили, за да подобрят бързо координацията си.

Но след това спира да се опитва да прихване топките, въпреки че все още се гърчи към тях. Оглежда се и тръгва на 60 сантиметра висок блок в ъгъла на голямата стая. Блокът има захранващ кабел, включен в близкия контакт. Велоцирапторът минава над блока, кляка върху него и след това затваря очи. Инженерите пометат разпръснатите тенис топки и ги връщат в бункерите на машините.

Два часа по-късно отваря очи. Един от инженерите натиска превключвател и тенис топките започват отново да летят. Велоцирапторът скача обратно в битката. Този път е забележимо по-гладко, когато се върти. Спира повече топки, отколкото преди. И отнема малко повече време, преди да вземе почивка за почивка и зареждане.

Това е история от еволюцията на Plastic Dinosaur aka PD, измислен роботизиран велоцираптор, който авторите Дейвид Клемент, директор на Wavesine и съосновател на Senbionic, и Майкъл Барнард използват за изследване на аспекти на машинното обучение. Прочетете първите статии от поредицата за механичната и невронна архитектура на робота. Достатъчно е да кажем засега, че има алуминиев и пластмасов скелет, задвижващи механизми с електрическо задвижване, литиево-йонна батерия, която индукцията се зарежда от този 60-сантиметров блок, много сензори, интелигентно обвиване на плат от „кожа“, която има още сензори и три хипотетични невронни мрежи, които наричаме церебелумнет, амигдаланет и любопитни мрежи. Първият е автономната нервна система на PD и двигателната невронна мрежа. Второто е вземането на решения на PD и борбата или бягството на невронната мрежа. Третото е „останалата част от мозъка“, която иска да изследва нови неща и има повечето способности за съвпадение на моделите за неща извън тялото на PD.

PD и създателите му играят игра. Играта е проста. PD е вратарят. Целта е футболна мрежа. Топките са тенис топки, хвърляни от машини за тенис топки. PD се възнаграждава, когато засече топка, преди тя да уцели мрежата и получи малко наказание, когато топката удари мрежата. Да, наказването на динозавър с изкуствен интелект ще върви добре.

Тази малка история е част от процеса на обучение. Преди това те проведоха куп виртуални упражнения, за да накарат невронните мрежи на PD да прихващат виртуални топки, но както винаги има пропаст между симулацията и реалността. Те са повторили през симулация и реалност няколко пъти и в началото на тази малка история PD има правилната идея и прихваща движещи се тенис топки в „реалния“свят.

Тъй като зарядът на батерията на PD намалява, cerebellumnet обръща внимание. В определен момент започва да изпраща сигнала „Гладен съм“. Този сигнал става все по-силен и по-силен. В крайна сметка той има приоритет пред вниманието на curiousnet и amygdalanet към играта. Curiousnet се оглежда, докато разпознае зареждащия блок и казва „Това е там“, но все още е привлечен от движещите се топки. Разкъсано е между конкуриращите се импулси. Amygdalanet решава, че е време да отиде там, и казва така. Cerebellumnet обръща PD и го отвежда към блока. Amygdalanet ги предпазва от прекалено бързо движение и бягане в стената поради импулса на страха. Curiousnet вижда какво трябва да бъде подравняването и продължава да изпраща рафиниращи сигнали, докато те се установят на блока. След това малкият мозък включва цикъла на зареждане и „заспиване“.

Цикълът на сън в тази малка история е интересен. Концептуално това, което се случва, е, че всички преживявания на успеха и неуспеха, които PD е имал при спиране или не спиране на топките, и различните показания на сензора при това се качват във виртуалната му среда. Виртуалните среди автоматично създават масивно паралелен набор от симулации и преминават през набор от симулации в Монте Карло, за да оптимизират поведението на PD за успех в спирането на топките. По-лесно да се каже, отколкото да се направи, разбира се. Всяка от трите невронни мрежи се адаптира леко към това, като се научава как да го направи по-добре, а получените итеративно обучени невронни мрежи се преинсталират в хардуера в роботизираното тяло на PD.

Но има нещо друго. Cerebellumnet, невронната мрежа, която е автономна нервна система и център за управление на двигателите на PD, има постоянна система за възнаграждение за използване на по-малко електричество и по-малко натоварване на ставите. Това се превръща в по-плавни движения и ефективно постигане на физически цели. Наред с други неща, при липса на външен стимул, PD има тенденция да бъде все още за разлика от движението. Това е аналогично на начина, по който хората се учат на някаква физическа активност. Ние ставаме все по-добри и по-добри в това, докато обучаваме собствените си гъвкави невронни мрежи и автономната нервна система да бъдат ефективни. В резултат на това сензорите, които проследяват напрежението, инерцията и изтощаването на батерията, също са входни данни за учебните модели. Както PD мечтае, процесът на обучение леко настройва нервните мрежи, за да бъде по-ефективен и гладък при определени обстоятелства. И така, когато ‘сънуването’ свърши, хардуерът на малкия мозък на PD прави робота малко по-плавен и по-ефективен в движенията си.

Време е за друга странична писта. Каква е разликата между резултатите и целите? Резултат от голяма част от машинното обучение е идентификацията. Това е постижим резултат. Съществуващите и почти актуални образователни усилия за машинно обучение водят до идентифициране на породи кучета и котки с 96% точност. Като се има предвид, че идентифицирането на котки и кучета преди пет години беше статистически просто по-добро от статичното, постигането на 96% точност днес е невероятно.

Какво се е променило и какво означава това за пластмасовия динозавър?

Идентификационното машинно обучение се подобри значително, защото ImageNet създаде стандартизиран, най-вече диференциран набор от изображения за обучение на невронни мрежи. Тогава Трите амиго на машинното обучение - тези, които спечелиха наградата на Тюринг наскоро - разбраха какви йерархии трябва да бъдат инстанцирани в невронната мрежа за визуална обработка, обучена с ImageNet, за да стигнат до общи характеристики, които могат да бъдат приложени върху изображения.

Така случайните петна над 10 до 12 предимно невидими слоя се превръщат в ръбове и ъгли и пера. И на всичкото отгоре можете да добавите набор от 100 идентифицирани сложни неща като кучета и котки и да постигнете забележителна точност при идентификацията с много ограничен нов набор от данни. Направено тежко повдигане. Отвориха се експлоатационни ниши.

Но идентификацията е съществителни, а не глаголи. Проблемът на онтологията е, че това са всички съществителни, без глаголи, както Дейвид откри в дълбокото си гмуркане в пространството, което включваше дискусии на американската национална отбрана за итеративно и постепенно създаване на дефиниции за всякакви онтологии. И машинното обучение го споделя до голяма степен. Страхотно е да се идентифицират съществителните с RetinaNet, но глаголите? Не толкова. Дори ELMo, който е в състояние да формулира всички части на речта и идиоматичните нюанси, по своята същност няма действие.

Целите са ориентирани към действие. Как алгоритъмът за машинно обучение стига до решения за разлика от опциите? Това е разликата между машинно обучение, ориентирано към модели и поне на теория, машинно обучение без модели, което взема решения и избира действия. Усещам как се появява квадрантна диаграма, което ще рече опростен модел, който се преструва, че сложните градиенти могат да бъдат обединени в четири полета и освен това четирите полета представляват вселената на резултатите.

Квадрантна диаграма на идентифицируеми, неидентифицируеми, действащи и недействителни елементи
Квадрантна диаграма на идентифицируеми, неидентифицируеми, действащи и недействителни елементи

Диаграма на квадранта по автор

Да, просто да успеем да идентифицираме нещо е страхотно, но какво правим с тези знания? Какви цели избираме?

Понастоящем цикълът за внимание включва няколко неща. Пространство за внимание, където нещата продължават да се променят, но са ограничени в някои измерения. Например, камери, които летят над едни и същи води и кацат по едни и същи маршрути. Набор от сензори, записващи пространството за внимание, може би набор от GoPros, iPhone или сателити. Експерт или умишлен човешки агент, който иска резултати от вниманието, което се обръща на пространството за внимание, т.е. някой, който обръща внимание. Невронна мрежа за машинно обучение, която се обучава да обръща внимание на пространството за внимание. Характеристики в пространството за внимание, предвид наличните сензори, които невронната мрежа може да идентифицира. Експерт или група от по-сложни невронни мрежи, които могат да идентифицират характеристики при ограничено обучение - хора - които могат да посочат характеристики, които невронната мрежа не може да идентифицира. Процес на обратна връзка, за да продължи да сочи към невронната мрежа основните характеристики.

Представете си дънер, плаващ във водата. Той е избягал от бум от дървени трупи, плаващ по голяма река. Той има стойност. Хората се грижат за това. Видеокамера на плаващ самолет, летящ над реките и заливите на пространството за внимание, заснема много снимки. Невронната мрежа е обучена да разпознава, че нещата, които вижда, са ценни елементи, т.е. Идентифицира ги. Но това е съществително, а не глагол. Откъде идва глаголът или действието?

Това е цикъл на внимание. Пространство за внимание. Хора, на които им пука. Характеристика. Невронна мрежа, която се обучава да обръща внимание. Маратонки. Но малко или никакво разбиране за действие. Още.

Както стана ясно от статията за архитектурата, роботът не може да се учи сам. Всичко, което може да направи нейният невронна мрежа, е да получава входове и да извиква инструкции. При абсолютно същите обстоятелства на входовете ще се получи точно същият изход на инструкциите, точно както е в случая с автономните системи на Tesla на неговите автомобили. Цикълът „сънуване“се случва извън работещия хардуер на невронната мрежа на робота и след това резултатите се изтеглят. Той променя поведението си само след като „сънува“.

Има още един аспект на това, който си струва да се извлече повече, този на вниманието, което нервните мрежи отделят на различни характеристики. Вниманието и характеристиките са много специфични думи, които авторите използват, и ние се опитваме да бъдем точни при тяхното използване. Тъй като статията за архитектурата е изложена в детайли, през цялото време в тялото и околностите на PD се случва много. Той има постоянни потоци от сензорни данни отвътре и отвън на тялото си, от които идентифицира характеристики. Cerebellumnet обръща внимание на по-голямата част от нещата в тялото с вътрешните сензори, като идентифицира характеристиките, които са видими във всяка дадена точка. Curiousnet обръща внимание на повечето неща извън тялото. Amygdalanet обръща голямо внимание на всичко, което curiousnet не може да идентифицира, което може да представлява риск или може да идентифицира като заплаха, и посредничи между изключително фокусираното отвън curiousnet и вътрешно фокусирания малък мозък. Всяка невронна мрежа има различни сфери на внимание.

Едно от нещата, на които cerebellumnet обръща много внимание, е зареждането на батерията. Церебелумнет беше създаден първо и беше възнаграден силно, за да гарантира, че никога няма да свърши или да стане твърде нисък. Научихме се да обръщаме много внимание на този сензор и той обръща по-малко внимание на повечето други сензори, въпреки че те са също толкова „силни“.

Това е фундаментален аспект на невронната мрежа, която включва шумен набор от данни, от които се учи, за да ги счита за релевантни за наградените резултати. Това обръща внимание.

Друг аспект на вниманието се връща към онази неспособност на нервните мрежи да учат, без да „мечтаят“. Човешките същества също имат нервни мрежи, гънките в черепа ни. Но можем да научим нещата, без да „сънуваме“, въпреки че човешкото сънуване помага на нашите нервни мрежи да направят нещо в същия диапазон. Данните от неврологията, например изследването Sleep, Learning and Dreams: Off-line Memory Reprocessing от Stickgold et al., Показват, че докато ние създаваме нови невронни връзки, докато сме будни, сънуването включва преработване на някои спомени и приоритизиране на някои връзки в нашите нервни мрежи докато унижава другите. Това е част от нашия цикъл на обучение и като всичко биологично е необичайно разхвърляно.

Сънуването подсилва някои аспекти на нашите нервни мрежи, като ги запомня живо и намалява други, като ги игнорира. Само сънуването може хипотетично да подобри симптомите и въздействието на ПТСР. Докато в човешките изследвания сме ограничени от разбираеми етични проблеми, проучванията върху плъхове предполагат, че това е така. Представете си AI велоцираптор с индуциран ПТСР или просто възникващ ПТСР, който никой не забелязва.

Опитвайки се да концептуализираме робот за машинно обучение, ние вземаме уроци от усилията за биомимика през последните няколко десетилетия. Едно от интересните преживявания на Майкъл беше продължителното взаимодействие с известния биомиметик Джон Дабири. Той е носител на наградата MacArthur Genius Grant, който е направил очарователни неща, изучавайки движението на животни, особено морските животни, и придобивайки прозрения, свързани с това как да се подобри механичното движение. Майкъл беше написал критика на опита на Дабири да подобри генерирането на вятър - Становище: Дали турбините „рибно училище“са червена херинга? - и Дабири беше протегнал ръка, за да аргументира делото си.

Това беше завладяващ разговор, но съответният извод за мисловния модел на PD беше, че биомимикрията не се опитва да възпроизведе точно как функционират биологичните системи, а се опитва да намери по-прости начини за постигане на същите цели въз основа на съответната физика. Това е част от защо сензорите на PD просто крещят нещата през Bluetooth и невронните мрежи се научават да обръщат внимание на това, което е от значение. Ето защо ние не се опитваме да пресъздадем как хората се учат в нашите разхвърляни, органични и припокриващи се цикли на събуждане и сънуване, а ги разделяме по-отчетливо на цикли на действие и цикли на обучение. Ето защо ние колабираме, поне концептуално, автономната нервна система и малкия мозък в една невронна мрежа.

И, разбира се, всичко това е мисловен модел, използван за изследване на аспекти на машинното обучение със странична помощ на роботиката, така че вземете всичко това с известна доза сол, с изключение на концепциите за машинно обучение.

От това, разбира се, възникват още въпроси. Как да наградим невронната мрежа за положителни резултати и да я „накажем“за отрицателни резултати? Ами ако обучението е лошо и невронната мрежа се научи да обръща внимание на грешните неща? Какво ще стане, ако необходимите черти за оцеляване не бъдат достатъчно възнаградени и невронната мрежа ги поставя настрана в сравнение с други неща, които тя реши, че са от значение? Ами ако придобитите способности не се упражняват; разграждат ли се и изчезват или остават перфектно запазени в кехлибар? Това са въпроси за други парчета от тази поредица.

Четвъртата статия от поредицата ще се занимае с това как невронните мрежи развиват често непознаваеми и опростени начини за идентифициране на нещата чрез характеристиките, на които те обръщат внимание, с потенциално предизвикателни резултати. В него Пластмасовият динозавър става предубеден, разбира се по забавен начин.

Популярни по теми