データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

AWS GlueのGetPartition APIはテーブルのパーティション数に応じて遅くなる事の検証

イントロダクション

AWS Glue をHiveメタストアとして利用し、Hive on EMR/Spark on EMR/Presto on Athenaを使った分析をしています。 その際に利用するであろうGetPartitionのAPI でのパーティションの取得の時間が気になって調べてみました。 GetPartition APIは特定の条件に合致するパーティションを取得するAPIですが、1回のAPI呼び出しで全て取得できる訳ではなく、レスポンスのNextTokenがなくなるまで何回もAPI呼び出しする必要があります。その呼び出し回数が多く、その結果遅くなっているように感じました。

続きを読む

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

  • 作者: ヨーン・リーセゲン,坂口恵
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2019/06/20
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る
を読んでみたら、なかなかに面白かったので内容を紹介します。

続きを読む

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。

yutori-datascience.hatenablog.com

今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。

github.com

続きを読む

ICSE2019 "Software Engineering for Machine Learning: A Case Study"を読んだ

Microsoft Researchの研究員の方々が、社内のAI関連開発者への聞き取りを通じて、機械学習関連システムのためのソフトウェア工学知見を整理した論文です。

International Conference on Software Engineering(ICSE2019)というソフトウェア工学の国際学会で発表された論文です。

2019.icse-conferences.org

続きを読む