データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

MySQLのbinlogを眺めてみた

binlogとは

MySQLでは、データの更新があった際にbinlogを出力します。 このログデータを活用する事で、ロールフォワードができたりします。 日常的に使うことはないので、コマンドの使い方などを備忘録的にまとめてみました。

続きを読む

AWS GlueのGetPartition APIはテーブルのパーティション数に応じて遅くなる事の検証

イントロダクション

AWS Glue をHiveメタストアとして利用し、Hive on EMR/Spark on EMR/Presto on Athenaを使った分析をしています。 その際に利用するであろうGetPartitionのAPI でのパーティションの取得の時間が気になって調べてみました。 GetPartition APIは特定の条件に合致するパーティションを取得するAPIですが、1回のAPI呼び出しで全て取得できる訳ではなく、レスポンスのNextTokenがなくなるまで何回もAPI呼び出しする必要があります。その呼び出し回数が多く、その結果遅くなっているように感じました。

続きを読む

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

  • 作者: ヨーン・リーセゲン,坂口恵
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2019/06/20
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る
を読んでみたら、なかなかに面白かったので内容を紹介します。

続きを読む