日々精進

新しく学んだことを書き留めていきます

学習中に突然学習が止まる

以下のようなメッセージを残して学習が止まることがあり、困った。

train.sh: line 27: 32529 Killed

原因はOOMだった。

dmesg -T| grep -E -i -B100 'killed process'

上記コマンドを実行すると、以下が表示され、OOMでプロセスが殺されたことが分かる。

[Fri Nov 12 12:40:36 2021] Out of memory: Kill process 32529 (train.py) score 934 or sacrifice child [Fri Nov 12 12:40:36 2021] Killed process 32529 (train.py) total-vm:91100884kB, anon-rss:54097488kB, file-rss:65616kB, shmem-rss:4485120kB

ログにもっとKillされた理由を出してくれるとわかりやすいんだけど。。

参考:

stackoverflow.com