2022-08-01から1ヶ月間の記事一覧
急にyarn buildなどのタスクを実行するとterminalが固まるようになった。 git stashをしてもやはり固まる。 原因はいつの間にかcore dumpが吐かれていたことだった。プロジェクトフォルダにcore.xxxxのようなファイル名で4GBのファイルができていた。 これを…
EC2上にremote containerを立ち上げ、そこに接続して開発をしている場合。 EC2にsshトンネルを掘って接続している。 あるタイミングまでは普通に開発用サーバをコンテナで起動してローカルのブラウザからアクセス出来ていたが突然出来なくなった。 原因はわ…
WSL2を使っていると、ext4.vhdxというファイルの容量がすごく大きくなることがある。これを小さくする方法としてOptimize-VHDを使う方法がよく紹介されているが、これはHyper-Vの機能の一つらしく、Hyper-VはWindows11 Proでないと使えないのでWindows11 Hom…
ターミナルの右上の+ボタンをクリックして新しくターミナルを開き、その後既存のターミナルを削除すればよい。 参考: www.javadrive.jp
/var/lib/docker/overlay2の容量をdu -sh /var/lib/docker/overlay2で調べたところかなり大きかったのでびっくりしたが、以下によるとduでは正確な容量を調べられないらしい。 www.creationline.com /var/lib/docker/overlay2の容量を手っ取り早く削減するた…
DockerHubのnvidia/cuda:11.5.2-devel-ubuntu20.04をベースイメージとしてコンテナを作り、その上でcudfを動かすと掲題のエラーが出た。 原因はLD_LIBRARY_PATHで指定しているcudaのパスが間違っていること。多分ベースイメージでは以下の環境変数が設定され…
TrainingJobを起動したのに、エラーメッセージは「CreateProcessingJobを実行したけど、processing jobのservice limitに引っかかったよ」と言っている。 TrainingJobを起動したはずなのになぜ・・と思ったら、TrainingJobは裏でProcessingJobを起動している…
以下のサイトで過去の各コンペのwinner solutionがまとめられている。こんな便利なものがあったとは・・・! https://farid.one/kaggle-solutions/ 作者の方に感謝します。
手元のデータセットで以下のコードを実行すると使用メモリ量が2GB程度増えた。 def _get_difference(self, num_feat_names: List[str], num_feats: DataFrame) -> DataFrame: def diff(df: DataFrame) -> DataFrame: return df.diff(1) npartitions: int = m…
以下のようにdecoratorを定義すると、@timerを付けたメソッドの戻り値の型がAnyになってしまい、不便。 def timer(fn) : from time import perf_counter def inner(*args, **kwargs): print(f'start {fn.__name__} {CommonUtil.now_datetime_for_log()}') Co…
今まで def func() -> (DataFrame, str): のように書いてたけど、これだとPyCharmでは戻り値の型を正しく推論できないことがあった。つまり、以下のようにfuncの戻り値をa,bで受けた後、a.まで入力してもDataFrameのメソッドが補完候補に出ない。 a, b = fun…
原因は依存関係がoptionalだったため。例えばspring-data-redisだと、jedisは依存ライブラリではあるが(optional)と記載されている。 https://mvnrepository.com/artifact/org.springframework.data/spring-data-redis/2.7.2 optionalは複数のライブラリのど…
@dataclass class MyClass: _myvar のように@dataclassを使っていると、initを自動生成してくれて便利だが初期化時に何か処理を追加したい場合に困る。 以下のようにpost_initメソッドを実装するとinitを実行した後で実行してくれるので便利。これでdef init…
原因は、sagemaker training jobはtrainという名前のスクリプトファイルを最初に実行するが、そのファイルの改行コードがCRLFになっていたため。LFにしたら直った。 参考: stackoverflow.com
Pandasの場合は以下のようにgroupbyしてからdiffを呼ぶと1行前とのdiffが取れるが、daskにはdiffメソッドがない。 features[num_features + ["customer_ID"]].groupby(["customer_ID"]).diff(1) daskの場合、map_overlapメソッドを使って実装する。 diffや移…