人工生命的角斗场
在模拟中,研究者不仅改变了人工生命的身体形态,还改变了它们的训练环境和执行的任务,使得实验的复杂度远高于之前的同类研究。通过锦标赛式的达尔文进化方案,该模拟能够确保每一种人工生命的形态都不会被一票否决,就算在不利的环境下依然有机会将形态传递给下一代。该方法既保持了种群的多样性,又降低了仿真的计算量。
图2. 深度进化强化学习框架(Deep Evolutionary Reinforcement Learning),绿框标出的强化学习发生在个体层面,而红框的突变改变身体形态,是该框架中进化算法的体现。
每次模拟开始于576个独特的人工生命,包括一个“球体”(头部)和一个由不同数量的圆柱形节肢以不同方式排列而成的“身体”。每个人工生命都以相同的方式感知世界,并以相同的神经结构和学习算法开始模拟。换句话说,所有的人工生命在开始它们的虚拟生活时,都拥有相同程度的智慧,只是身体形状不同。
图3. 人工生命所需要经历的各类环境
然后,每一个人工生命都要经过一个学习阶段。在这个阶段中,它要么穿越平坦的地形,要么穿越包括块状山脊、阶梯和平滑山丘等更具挑战性的地形。还有一些人工生命必须移动箱子到目标位置,才可以跨越复杂的地形。
图4. 人工生命分别通过平坦、需要绕障和需要将箱子推至指定位置的环境。
训练结束后,每个人工生命与其它三个在相同的环境/任务组合下训练的人工生命参加锦标赛,获胜者能够产生后代。后代在面临与其父母相同的任务之前,经历了四肢或关节的微小突变。所有的人工生命(包括获胜者)都参加了多项锦标赛,只有当新的后代出现时才会开始衰老。
身体进化,
使得习得有利的行为更快
在每个环境完成三次进化迭代(每次迭代产生4000种形态)后,幸存下来的人工生命平均经历了10代的进化,其形态十分多样,包括两足动物、三足动物以及有或没有手臂的四足动物(见图5)。