CloudWatchでログを見てもエラーメッセージは出ておらず、TrainingJobの詳細画面には以下のメッセージが出ていた。
Failure reason InternalServerError: We encountered an internal error. Please try again.
原因はディスク容量不足だった。TrainingJobの詳細画面に表示されているDiskUtilizationのグラフは60%程度だったので気付くのが遅くなった。恐らく、DiskUtilizationのグラフの更新間隔が割と広いのでグラフの使用率が100%近くなっていなかったと思われる。
ディスク足りない場合、そのことが分かるエラーメッセージにしてほしい。。