日々精進

新しく学んだことを書き留めていきます

SageMakerでトレーニングジョブが「AlgorithmError: , exit code: 137」「InternalServerError: We encountered an internal error. Please try again.」エラー

exit code 137の場合、OOMが原因という情報があった。詳細は以下参照。

goody-jp.com

137はSIGKILLによってプロセスがKILLされたことを意味するので、OOM以外が原因の場合もあるが、今回はほぼ同じコードで学習データのみ変更してこのエラーが出たのでOOMが原因と推測した。

もっとメモリの多いインスタンスで再度学習中。学習は時間がかかるのでもう一度回すのがつらい・・ エラー発生したらSlackに通知が飛ぶようにできないのかな。ロジックの不具合でエラーが発生した場合はtry-exceptを使って通知を飛ばすようにしているがインフラレイヤーが原因の場合はどうすればいいのか・・