Как заставить ИИ-существ развиваться. История маленькой ошибки
Существа в нейронной сети не обучились бежать к пище. Рассказываем, как заставить эти существа развиваться.
907 открытий917 показов
Ничего непонятно. Примерно весной прошлого года в проекте был прорыв, но с тех пор, ничего не поменялось, существа по-прежнему вели себя странно.
Даже в последнее время появились сомнения по поводу того что вообще какая-то сходимость у алгоритма достижима. Ну, как бы, сложность задачи понятная, не запредельная, и я ожидал что рано или поздно сетки обязаны обучиться бежать к пище.
Но если наблюдать долго, можно увидеть, что в целом они стремятся двигаться к пище, но часто в простейшей ситуации, существо выбирает отвернуться от пищи и двинуться куда-то в сторону.
Это выглядело как надкушенный пирог, как половина победы.
Что я перепробовал, чтобы добиться более предсказуемого поведения:
- Крутил настройки мира: вероятность мутации веса, силу мутации, обилие пищи и т.д.
- Я увеличил поле для существ, добавил преграды на карте.
- Пробовал заменять самописную полносвязную сетку – на аналог на базе PyTorch.
- Расширил и усложнил инспектор популяции, чтобы видеть что внутри происходит.
- Собрал отдельностоящее приложение, которое загружает дамп и тестирует все существа из дампа в маленьком изолированном эксперименте.
Пока крутил настройки, затраты энергии на перемещение и поворот, получились такие ждуны, которые сидят на месте и ждут еду, было забавно. Это просто настройки мира такие, что двигаться и крутиться – дорого в смысле затрат энергии, вот и сидят на месте.
Ничего не помогало, начал подозревать, что весов в сетке слишком много, для того, чтобы в разумные сроки появилась сходимость. Смущало только то, что существа очень быстро научались избегать столкновений со стенами.
Но при этом, долго не получалось добиться твердой сходимости к целенаправленному движению к пище. Ведь чем стены от пищи отличаются? По сути только знаком. Ладно, какие были возможные причины:
- Может быть существа “не видят пищу”.
- Та часть весов, которые отвечают за пищу, не мутируют.
- Какие-то важные веса задираются вверх до больших значений, откуда уже сползти не могут (“паралич сети”).
- Существа достигают какого-то состояния полу-обученности, которое полностью их устраивает. Другими словами, отбору достаточно, чтобы существа ну с какой-то вероятностью находили что-то покушать, и на этом эволюция останавливалась.
Я перестал думать, и пошел тем путем, который в тот момент видел. Видимый путь заключался в том, чтобы поглубже заглянуть в то, что там внутри происходит.
Изначально у меня было окно инспектора, но там был только перечень существ и при клике на существо – печатались их веса. Начал добавлять функционал в этот инспектор.
График динамики энергии особи
Для начала я добавил массив энергии существа, энергия логировалась каждый цикл. Когда существо питалось – энергия увеличивалась, когда существо бегало и поворачивалось – энергия постепенно падала.
График много инсайтов он не дал, у всех существ он разный, зависит от того, насколько удачливо было существо. Но в целом это было то, что я ожидал.
Я был бы рад увидеть, что энергия ведет себя как-то странно, это означало бы что я нашел ошибку, но увы.
Потом добавил массив с событиями в жизни существа: “поел пищу”, “столкновение со стеной”, “размножение”. Этот массив вывел на том-же графике в виде меток по горизонтальной оси – желтые, зеленые, красные.
Вывел на экран массивы весов
Далее добавил вывод весов, всех слоев, включая тот вес, который для сдвига сигмоиды по вертикали.
Надо было как-то кодировать вес в виде цвета, сделал так: чем ближе к нуля – тем темнее/чернее. Чем больше значение веса – тем зеленее. Чем меньше отрицательное значение – тем краснее. Веса не нормированные, так что пришлось сделать так: все что выше 1.0 – ярко зеленым, меньше “-1” – ярко красным. Тупенько, но пока для наших задач подходит.
За этими картинками, кстати, было интересно наблюдать. В какой-то момент обнаруживалось, что популяция сузилась до 2-3 сильно отличающихся эм.. скажем, “геномов”, которые имеют, по всей видимости одинаковую приспособленность. Особи внутри генома отличаются незначительно: плюс-минус 5-10 весов. А сами геномы отличаются между собой кардинально. Ну… практически разные виды =) Правда потом, все-же остался один геном-победитель с незначительной дивергенцией по популяции.
С этим функционалом надо будет еще поиграть – тут хороший потенциал поизучать именно как изменяется набор приспособленых геномов, позамерять скорость схождения, возможность образования новых наборов особей с сильно отличным набором весов, и т.д.
Еще хочу попробовать оценить скорость схождения, если на старте веса всех существ будут одинаковые и равны 0.1
Чистый эксперимент
Картинки дали чуть заглянуть внутрь отбора, но не ответили на вопрос, почему нет сходимости. Энергия менялась как и ожидалось, веса мутировали вроде по всей площади. Надо было копать глубже.
Я собрал другое приложение, на базе основного. Это второе приложение делало следующее: загружала дамп с популяцией и ставило чистый эксперимент над каждым отдельно взятым существом.
Эксперимент был такой: генерировалась пустая карта, размером примерно с область которое существо может видеть. Существо устанавливалось слева, мордой направо: угол=0, скорость устанавливалась в 0.1. Дальше поочередно в каждую клетку карты устанавливалась пища, и запускался один прогон. Прогон считался проваленным “0”, если существо достигала любого края карты либо если оно теряло пищу из виду, например – отворачивалось (так как у существ нет памяти, то это имеет смысл), или если изначально пища была установлена вне поля зрения. Пока существо видит пищу – оно имеет право шагнуть еще раз. Если существо в итоге добиралась до установленной пищи, то эта клетка засчитывалась как “1”. Итого, прогон завершался либо удачно “1”, либо провально “0”.
Такой прогон повторялся для всех клеток на карте, итого, получался двумерный массив из “0” и “1”.
Предположение было такое, что на первые поколения, еще необученные – будут игнорировать пищу и соответственно почти вся карта будет заполнена нулями. А по мере увеличения приспособленности – существа должны все уверенее настигать пищу в любой точке, которая находится в поле их зрения.
А что получилось в итоге?
То есть эксперимент намекал, что существа не обучаются. Плюс-минус похожая картина была у каждого существа в популяции.
Вывел на печать что видит существо в процессе чистого эксперимента
В воскресенье сидел чуть оформлял код, у меня было всего минут 30, решил просто посмотреть что видит существо на каждом шаге эксперимента, добавил одну строчку и увидел вот что:
Тройки тут означают “существо”, двойки – “пищу”, единицы, если бы они были – “стены”. Видно, что откуда-то существо видит тройки, хотя в эксперименте на постановочной карте не было никаких других существ, кроме него самого. Так что получалось, оно видит себя, свое тело. Координаты существа – вещественные числа, шаг для raytrace алгоритма я установил 0.9, и получается, что в какой-то момент существо действительно может видеть только свое тело.
Так что я raytrace чуть сдвинул вперед, стартовал не с нуля, а с 0.2, и всё сошлось, причем мгновенно, я даже не обучал сетки заново.
Результаты
Так это выглядело пошагово:
Вот что записал в дневнике тот момент:
Омг, я проверил. Просто поправил 0.0 на 0.2 в функции look() изагрузил дамп 150-го поколения. Ни одного существа, которое быдействовало странно не увидел, долго наблюдал, пытался найтистранности. кое где, крайне редко, пару раз заметил, но я списываю их нато что возможно это были молодые особи с вредной мутацией. Наблюдалзабавные ситуации, когда несколько существ бегут к одному кусочку едынаперегонки. Или когда одно существо рядом с другим и постоянно на парушагов позади, а так как одно видит тоже что и первое существо почти, тооно продолжает гоняться за ускользающей едой, а первое существо всепоедает, опреежая второе на несколько шагов.
В общем, да, это прорыв, потому что приложение снова ведет себя понятно. Быстро обучается в пределах 5-7 поколений. Избегает столкновений со стенами, если видит пищу – корректирует курс и скорость, чтобы добраться до пищи. Бинго! Отсюда можно смело ставить новые задачи.
В эксперименте все же есть изредка дыры. И пока не уверен почему, откуда эти дыры. Надо разбираться.
Есть положительный момент в этой ситуации. Она наглядно показывает устойчивость системы к шуму. Шум в виде искажения зрения – не препятствует целенаправленному обучению. Так как этот шум – имеет рандомный безсистемный характер. Щас переформулирую, популяция обученных существ, после 260-го поколения, жило и обучалась с неприятными помехами (регулярно существа видели свое тело, оно какбы загораживало взгляд). И несмотря на это, существа обучились перемещаться в направлении пищи. Это стало очевидно, когда я сместил raycast чуть вперед, и экспериментальные прогоны сразу показали ожидаемые результаты, без какого-то либо отбора, без обучения, на те-же весах. Это дает надежду на то, что обученные сетки и в дальнейшем будут усточивы к всякого рода рандомному шуму.
Для развлечения, вот видео с прошлого года, до того как увеличил размеры мира, не знаю, какое тут поколение, но плюс-минус разумное поведение, по крайней мере стен избегают. Индикаторы над головой – модуль скорости, и красная полоска – уровень энергии.
907 открытий917 показов