日々精進

新しく学んだことを書き留めていきます

Pandasで読み込むカラムを絞るのと、データ型の最適化で処理が速くなった

DataFrameの処理を高速化する時に、以下を行うと100倍ぐらい速くなった。パフォーマンスチューニングの時はまずこれらをやるといいかも。

  • pd.read_csvで読み込む時に必要なカラムだけ読み込む

  • さらにdtypeも指定してメモリ使用量を削減する

参考:

qiita.com