2017-11-19

集計はlong formatよりwide formatの方が速い

long formatとwide formatについては以下参照。

www.theanalysisfactor.com

long formatのDataFrameに対して以下のように商品毎の日別売上合計を集計したところ、53秒かかった。

sums: DataFrame = train.groupby(["item_id", "date"])[SALES_COUNT].sum()

これをwide formatに直し、以下のように商品毎の日別売上合計を集計したところ、0.63秒で終わった。

sums = train.groupby("item_id").sum()

グループの数が数個とかだとlong formatでもすぐ終わるけど、item_idが3000ぐらいあったので100倍近く差が出てしまった。 pandas難しい。。

2017-11-18

Pandasで最頻値を計算する処理は非常に重い

以下のように、移動平均などを計算しようとしたらすごく時間がかかっていたので速くしようとした時の話。

    agg = sales[SALES_COUNT].astype("float32").shift(shift).rolling(window) \
        .agg(["mean", "max", "min", "std", lambda x: x.mode()[0]]) \
        .reset_index().set_index("seq_idx")
#2.3秒かかった

↑を↓のように書き換え、最頻値を計算しないようにしたら150倍ぐらい速くなった（！）

    agg = sales[SALES_COUNT].astype("float32").shift(shift).rolling(window) \
        .agg(["mean", "max", "min", "std"]) \
        .reset_index().set_index("seq_idx")
#0.015秒かかった

カスタム関数を使うと遅くなると言うが、ここまで違うとは。。最頻値が必要な場合はDataFrameからndarrayを取り出してnumpyで処理した方が良いかも。

2017-11-17

DataFrame.groupbyでcategory型の列を指定すると、データの中に存在しないカテゴリの集計結果も出力される

状況は以下。

df = df.query("store_id == 'CA_1') # store_id はCA_1, CA_2などがある
df.groupby('CA_1').sum() #=> dfにはCA_1しかないのにCA_2の集計結果の行もできてしまう

以下のようにobserved=Trueオプションを指定すると直る。この挙動をデフォルトにすべきでしょ。。

df.groupby('CA_1', observed=True).sum()

参考： stackoverflow.com

2017-11-16

S3のフォルダ名を変更する

直接変更する方法はなく、以下の手順が必要。

・以下をEC2で実行する

aws s3 --recursive mv s3://<bucketname>/<folder_name_from> s3://<bucket>/<folder_name_to>

・古い名前のフォルダを削除する

もっと簡単にフォルダ名変えられるようにしてほしい。。

参考：

stackoverflow.com

2017-11-15

userがsudoできるようにする

以下でsudoできるようになる。

usermod -G sudo ＜ユーザ名＞

参考：

webkaru.net

2017-11-14

pandasでmulti indexになっているときにindexの列で絞り込む

以下のようにget_level_valuesメソッドでindexのうち一つの列を選択してmaskをかけられる。

        mask: Series = self.features.index.get_level_values(1) == pred_date
        self.features.loc[mask, SALES_COUNT] = pred[PRED_SALES_COUNT]

multi indexはほんとは扱いにくいから使わないようにしたい。。

参考：

stackoverflow.com

2017-11-13

pytestのassertはlist同士の比較もできる

listの中の値をassertしたい場合でもassert ==で検査できる。配列やtupleが入れ子になっていても大丈夫。

assert actual == [1, 7, ["平均", "mean"]]

以下によるとunittestではTestCase.assertItemsEqualとか使わないといけないっぽい。pytestは楽だなあ。

stackoverflow.com

日々精進

新しく学んだことを書き留めていきます

集計はlong formatよりwide formatの方が速い

Pandasで最頻値を計算する処理は非常に重い

DataFrame.groupbyでcategory型の列を指定すると、データの中に存在しないカテゴリの集計結果も出力される

S3のフォルダ名を変更する

userがsudoできるようにする

pandasでmulti indexになっているときにindexの列で絞り込む

pytestのassertはlist同士の比較もできる