Mokum P250

blog, Mokum-Archive27 января 2016 г.

Помните рассуждения о том, что в шахматы-де компьютер обыграл человека грубой вычислительной силой, но с Го такой номер в обозримом будущем не пройдет? Так вот, уходит эпоха-то: http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234

дабы не впадать в тоску по убитой романтике великой игры, усиленно вспоминаю подцепленную где-то лет пятнадцать назад формулировку «консервный нож одержал убедительную победу над чемпионом мира по открыванию банок голыми руками».

(впрочем, у этого чемпиона Европы «всего» второй профессиональный дан, в марте AlphaGo будет играть с обладателем девятого; но, как пишет Wiki про профессиональные даны, "difference between these grades is much smaller than with amateurs however, and is not based on the number of handicap stones required")

• Ну вот не грубая сила же. Брутфорсом можно было шашки и с натягом шахматы, а здесь пришлось нейросети, причем сложные "12 different network layers containing millions of neuron-like connections" • k4rlos

• ^ fair point. Но очевидно, что эти тренированные нейросети — всё равно узкоспециализированный консервный нож. Can't write a symphony or turn a canvas into a beautiful masterpiece (впрочем, OHWAI~, у нас есть DeepDream. Но это другой нож). А была еще буквально лет десять назад мода полагать, что игра в Го на профессиональном уровне — непостижимая и недостижимая способность Настоящего Человеческого Разума. • aldragon

• но она уходит неторопливее чем в шахматах, эпоха-то. Shredder или rybka ещё лет 5 (да какой 5, бери 10) назад рвали мастера спорта по шахматам как нефиг делать, на десктопном железе за 700 баков, а гугловый сетап воспроизвести дома нам ещё долго не светит, если я правильно понял • screamager

• (в шахматах тоже модно не совсем брутфорс, обсуждали немножко — https://mokum.place/denisshipilov/29592 ) • larhat

• ^^ да, сетап их хотя и из доступных компонентов, но... Про обучение сети: """...we just define an epoch as 10,000 mini-batches... we just use vanilla SGD on 4 NVidia K40m GPUs in a single machine to train the entire network (for some models we use 3 GPUs with 255 as the batch size). Each epoch lasts about 5 to 6 hours. The learning rate is initially 0.05 and then divided by 5 when convergence stalls.""" (http://www.thinkmate.com/product/nvidia/900-22081-0040-000) • larhat

• Из их бумажки узнал про http://computer-go.org/pipermail/computer-go/ ! • larhat

• про грубую силу, кстати, их лучший результат, который соревнуется, работает на DCNN + (потом) монте-карло tree search (и использует уже, кстати, 44 K40!). В future work они пишут охуенные планы — скомбинировать обучение и поиск на ходу! • larhat

• Да, монте-карлой с поиском лет 5 назад уже го ломали - до неплохого дана прога доросла, без всяких злоебучих нейросетей. UPD: я вот про эту прогу - http://www.smart-games.com/manyfaces.html • denisshipilov

• Ranshe ja volnovolsja izza demograficheskogo upada. No posle togo kak podaril sestre iroomba uzhe ne volnujus. Roboti budut rabotat i za nami • mentegatto

• (да, кстати, я мудак, ошибся и читал фейсбуковую статью —http://arxiv.org/pdf/1511.06410.pdf, а не гугловую — https://storage.googleapis.com/deepmind-data/assets/papers/deepmind-mastering-go.pdf — они похожие* схемы использывает, но гугловая лучше) • larhat

Mokum P251

Mokum P249