개발자:
현재 상태와 취할 수 있는 행동세트가 주어졌을 때 최적의 행동을 선택하도록 하는 강화학습 인공지능 엔진을 개발한다. Q-Learning 방법을 사용하며, Q함수로는 신경망을 사용한다.