exit code 137の場合、OOMが原因という情報があった。詳細は以下参照。
137はSIGKILLによってプロセスがKILLされたことを意味するので、OOM以外が原因の場合もあるが、今回はほぼ同じコードで学習データのみ変更してこのエラーが出たのでOOMが原因と推測した。
もっとメモリの多いインスタンスで再度学習中。学習は時間がかかるのでもう一度回すのがつらい・・ エラー発生したらSlackに通知が飛ぶようにできないのかな。ロジックの不具合でエラーが発生した場合はtry-exceptを使って通知を飛ばすようにしているがインフラレイヤーが原因の場合はどうすればいいのか・・