日々精進

新しく学んだことを書き留めていきます

SageMakerでTrainingJobを起動すると「ClientError: Failed to invoke sagemaker:CreateProcessingJob. Error Details: The account-level service limit 'ml.m5.2xlarge for processing job usage' is 20 Instances」エラー

TrainingJobを起動したのに、エラーメッセージは「CreateProcessingJobを実行したけど、processing jobのservice limitに引っかかったよ」と言っている。

TrainingJobを起動したはずなのになぜ・・と思ったら、TrainingJobは裏でProcessingJobを起動しているっぽい。

TrainingJobを起動した後、ProcessingJobの一覧を確認するとTrainingJobと同数のProcessingJobが起動している・・

掲題のエラーが発生した状況は以下。

  • TrainingJobを20インスタンス実行中
  • 追加でProcessingJobを1インスタンス起動

逆に、以下のケースではエラーが起きなかった。

  • ProcessingJobを1インスタンス実行中
  • TrainingJobを20インスタンス起動

ProcessingJob起動時のみProcessingJobの「すべての処理ジョブにおける合計インスタンス数」がチェックされているっぽい。起動順序によってエラーになる・ならないが変わるのは何か変な感じ

docs.aws.amazon.com