Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
В 2013 и 2015 годах Мних (Mnih) и др. опубликовали несколько научных работ с описанием алгоритма DQN (Deep Q-Learning), который учился играть в приставку Atari по одним лишь пикселям на экране. Используя сверточную нейросеть (convolutional neural network, CNN) и единый набор гиперпараметров, алгоритм DQN превзошел профессиональных игроков в 22 играх из 49.
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.