日々精進

新しく学んだことを書き留めていきます

YAMLとJSONの使い分け方

IT

YAMLは可読性が高く、コメントが書けるので設定ファイルなど人が読み書きするしプログラムも読むファイルに向いている JSONはより一般的なので、プログラム間のデータ連携に向いている 参考: stackoverflow.com

pythonでファイルを読み込むコードを簡単にする

IT

普通はwith open(path) as f: ...のように書くと思うけど、以下だとone linerでかける。 from pathlib import Path contents = Path(file_path).read_text() 細かいけどちょっと嬉しい。 参考: stackoverflow.com

python標準のファイル操作APIでなく、tf.gfileを使うメリット

IT

tf.gfileは普通のファイルシステムの他にHDFS等に対応しているのがメリット。 ファイルシステムだけしか使わないならメリットはない。 参考: stackoverflow.com

yamlを出力したときにインデントが足りないところがある

IT

dictに配列をネストさせたオブジェクトをyamlに出力すると以下のようになる。 dictionary: - A - B こうなってほしい。 dictionary: - A - B こうするためには、以下のようにする。 class FixIndentDumper(yaml.Dumper): def increase_indent(self, flow=Fal…

OrderedDictをyamlに出力する

IT

yaml.dump(ordered_dict)を実行するだけだと、Pythonのクラス名も出力されてしまうので以下のようにすると通常のyaml形式で出力される。 def represent_odict(dumper, instance): return dumper.represent_mapping('tag:yaml.org,2002:map', instance.items(…

YAMLとJSONの使い分け方

IT

YAMLはJSONより可読性が高く、コメントも書けるので設定ファイルはYAMLの方が適している。 JSONはデータフォーマットとしてより一般的なので、システム間でテキストで構造化データを受け渡す場合に使う。 JSONはコメントが書けないのがツライ。。 参考: sta…

TFRecordDatasetにS3のパスを渡すと「Encountered Unknown AWSError」が出る

AI

S3からデータを読み込む時に以下のログが出る。 2019-11-18 11:36:44.626135: W tensorflow/core/platform/s3/aws_logging.cc:57] Encountered Unknown AWSError InvalidRange The requested range is not satisfiable: 2019-11-18 11:36:44.626177: W tenso…

boto3でbucketのregionを取得する

IT

以下でできた。 s3: ServiceResource = boto3.resource('s3') bucket = s3.Bucket(bucket_name) bucket.meta.client.get_bucket_location(Bucket=self.bucket_name)['LocationConstraint'] 参考: stackoverflow.com

【OpenAPI3.0】readOnly属性を付けてもswagger codegenで生成したコードにsetterがある

IT

setterは生成しないのがあるべきと思ったが、生成される。。 Issueはあるけど2ヶ月以上放置されているので今後も直る可能性は低そう。 参考: github.com

yamlでNoneや指数形式が文字列になる

IT

none_item: None float_item: 1e-09 上記のようにyamlを定義してPyYamlで読み込むと。それぞれ'None', '1e-09'という文字列になってしまう。。 なので、以下のように修正した。 none_item: # None float_item: 0.000000009 もっといいやり方ないのかねぇ。。…

aws cliで「SignatureDoesNotMatch」「The request signature we calculated does not match the signature you provided. Check your key and signing method.」エラー

IT

原因は aws configure コマンドで設定したシークレットアクセスキーなどの情報が間違っていたため。 IAMロールで権限を与えていたのでそもそもaws configureは不要だった。なので、.awsフォルダを削除したら直った。 参考: qiita.com

S3上のデータを直接tensorflowから読み込んだ場合に「curl returned error code 77」「If the signature check failed. This could be because of a time skew. Attempting to adjust the signer.」エラーが出る

IT

tensorflowのtf.data.TFRecordDatasetにS3に置いたTFRecordのパスを渡すと読み込んでくれるという機能がある。 github.com これを使うと curl returned error code 77 が出た。77はSSL証明書のエラーらしい。 curl.haxx.se 今回はEC2からのアクセスで、man i…

EC2からS3のデータをダウンロードする場合、AWS外のネットワークを経由する場合がある

IT

今までEC2-S3間の通信はAWS内のみ通ると思っていたけど、VPCエンドポイントがない場合、一度インターネットに出るらしい。 そうすると通信速度が落ちるしセキュリティ的にも問題になりうるので VPCエンドポイントは必ず作るようにしておかねば。。 参考: ht…

Pycharmでplt.show()を実行しても図が表示されない

AI

前はIDE上で図が見えたんだけど、なぜか何も表示されなくなった。。 import matplotlib matplotlib.use('TkAgg') をmatplotlibをimportする前に実行すると表示されるようになった。けど、別窓で表示されるのでちょっと不便。 参考: teratail.com

Pythonのre.matchは先頭一致

AI

他の言語では部分一致になることが多いと思うが。。 部分一致にしたい場合はre.searchを使う。 参考: note.nkmk.me

boto3のlist_objects_v2は最大1000オブジェクトまでしか取得出来ない

AI

1001以上取得したい場合はループを回す必要がある。例は以下。 def list_all_contents(self, prefix: str = ''): next_token = '' base_kwargs = { 'Bucket': self.bucket_name, 'Prefix': prefix, } all_contents: List[dict] = [] while next_token is not…

pythonでメソッドの実引数に**を付けるとdictを展開してくれる

AI

これ知らなかった。。コードを見た方がわかりやすいと思う。例は以下。 >>> def parrot(voltage, state='a stiff', action='voom'): ... print("-- This parrot wouldn't", action, end=' ') ... print("if you put", voltage, "volts through it.", end=' '…

AWS CLIを使ってS3からファイルをダウンロードすると途中から速度が落ちる

IT

現象は以下。 インスタンスタイプはg4dn.xlarge 同じリージョンのS3バケットからEBS gp2にダウンロードする aws s3 cpコマンドで実行 このとき、 最初:210MB/s⇒5GBぐらいから速度が下がり始める⇒10GBを越える頃には150MB/sぐらい のように速度が変化する。 …

特定のVPCからの通信のみ権限を与えるポリシー

IT

以下のようにVPCエンドポイント指定で権限を付けられる。 { "Version": "2012-10-17", "Id": "Policy1415115909152", "Statement": [ { "Sid": "Access-to-specific-VPCE-only", "Principal": "*", "Action": "s3:*", "Effect": "Deny", "Resource": ["arn:a…

JetBrains系IDEの.imlファイルに差分が出て困る問題

IT

.imlファイルはコミットしてチームで共有することが推奨されているのでコミットしているが、 この中にコンパイラ・インタープリタの設定も入っていてその名前が人によって自由に決められるので そこで差分が出て困る。。 以下で「インタープリタの名前をPyth…

AutoScaling時にOutOfMemoryError発生時のヒープダンプを回収する

IT

AutoScalingしている時にOOMが発生するとサーバが落ちてAutoScalingGroupがサーバを消す。 なので、-XX:+HeapDumpOnOutOfMemoryError JVMオプションを設定していてもヒープダンプファイルがEBSもろとも消えてしまう。 消える前にS3にアップロードさせたいが…

MetaspaceとそのJVM option

IT

Metaspaceとは、クラスやメソッドの情報を格納しておく領域。ヒープ外にあるので、-Xmxを設定していても必要に応じていくらでもメモリを確保しにいく。 software.fujitsu.com なので、クラスを動的に読み込むようなアプリでは-XX:MaxMetaspaceSizeを設定して…

Windows環境のsshクライアントはGit付属のOpenSSHがおすすめ

IT

今まで以下のクライアントを使ってきたけど、どれもいまいちだった。 ・Putty 使いづらい ・WSL付属のssh WSLのファイルはWindowsから編集するとWSLから見えなくなるのでだめ。 いちいちWSLに入らないといけないのもちょっとね。。 あと、バージョンが古いの…

boto3を使って、S3オブジェクトをメモリにロードする

AI

ファイルに保存したくない、と言う場合、以下のようにかく。 s3_client = boto3.client('s3') s3_response_object = s3_client.get_object(Bucket=BUCKET_NAME_STRING, Key=FILE_NAME_STRING) object_content = s3_response_object['Body'].read() 参考: st…

TensorFlowにS3のパスを渡すと読み込んでくれる

AI

dataset = tf.data.TFRecordDataset(filenames=s3_paths, num_parallel_reads=num_parallel_calls) のように、S3オブジェクトのパス(s3://~)を渡すと、TF側でS3からデータをダウンロードしてくれる。便利。 参考: github.com tensorflow.classcat.com

PyCharmのSSH Interpreterからconda環境を使う

AI

EC2サーバ上でプログラムを実行したい、その時に、tensorflow_p36仮想環境で実行したい。実行はPyCharmから行いたいという場合。 Configure Remote Python InterpreterウィンドウのPython Interpreter pathに以下のように、仮想環境のpython実行ファイルのパ…

正しいコード(実行出来る)なのにPyCharm上でunresolved reference errorが出る

AI

原因はわからないけど、Invalidate Cachesを実行すると直った。 参考: stackoverflow.com

EFSをmountすると「mount: wrong fs type, bad option, bad superblock on /dev/nvme3n1,」エラー

IT

フォーマットしてないのが原因。以下のようなコマンドでフォーマットすると直る。 mkfs -t ext4 /dev/sdg 参考: ex1.m-yabe.com

EFSの通信速度

IT

EFSの通信速度がどう決まるかわかりにくかったけど、まとめると以下っぽい。 ・バーストすると、通信速度がEFS使用量(GB)/100 [MB/s]になる。但し、最低は100MB/s。 ・EFS使用量が少ないとバーストできる時間も短くなる。 ・EFSを作ってすぐは2TB転送するま…

EFS,EBS,S3のパフォーマンスとData Locality

IT

AIの学習に時間がかなりかかるので高速化したい。 データセットが大きいので、通信速度を上げる方法を調べた。速度を上げるためには Data Localityを意識することが大事。以下の記事は参考になりました。 missinglink.ai 調査結果 【S3】 リージョンをまたい…