以下のようなメッセージを残して学習が止まることがあり、困った。
train.sh: line 27: 32529 Killed
原因はOOMだった。
dmesg -T| grep -E -i -B100 'killed process'
上記コマンドを実行すると、以下が表示され、OOMでプロセスが殺されたことが分かる。
[Fri Nov 12 12:40:36 2021] Out of memory: Kill process 32529 (train.py) score 934 or sacrifice child [Fri Nov 12 12:40:36 2021] Killed process 32529 (train.py) total-vm:91100884kB, anon-rss:54097488kB, file-rss:65616kB, shmem-rss:4485120kB
ログにもっとKillされた理由を出してくれるとわかりやすいんだけど。。
参考: