日々精進

新しく学んだことを書き留めていきます

tensorflowでの学習がhangする

この現象はGPUが複数ある環境でのみ発生する。 学習が終わるタイミングで処理が止まってしまい、プロセスも終了することなく残る。 原因はtensorflowのバグっぽい。Issueでも似た現象が報告されているが、解決していない。(ちょっと違う現象なので別原因かも。。)

github.com

一旦stop_stepを指定して学習が全epoch分終わる前に学習を終了させるようにした。