データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

Python

AWS GlueのGetPartition APIはテーブルのパーティション数に応じて遅くなる事の検証

イントロダクション AWS Glue をHiveメタストアとして利用し、Hive on EMR/Spark on EMR/Presto on Athenaを使った分析をしています。 その際に利用するであろうGetPartitionのAPI でのパーティションの取得の時間が気になって調べてみました。 GetPartition…

MLflowに入門してみた

2019年6月にDatabricks社よりMLflowのv.1.0がリリースされました。 MLflow 1.0 is out today! Read a summary of the changes in this blog post: https://t.co/6V7QeemgdJ. Thanks to everyone who helped test and contribute!— MLflow (@MLflow) 2019年6…

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com

Ecri Jonas et al.「Occupy the Cloud: Distributed Computing for the 99%」

面白そうな論文があったので、読んでみました。 とは言っても2017年の論文であまり新しくはないです。 Occupy the Cloud: Distributed Computing for the 99% UC BerkeleyのEcri Jonasらによる論文です。 arxiv.org Ecri Jonasは http://ericjonas.com/ によ…

高齢者比率の高い都道府県は?現在と2040年。

はじめに 前回は人口ピラミッドの時系列可視化にチャレンジしました。 今回は、高齢化社会の様子を都道府県単位で切って見ていこうと思います。とくに、社会保障という観点で考えると、高齢者人口ではなくて、人口に対する高齢者比率が重要になってきます。…

東京都人口ピラミッドの経年変化。不安にしかならない(笑)。

少子高齢化業界のスーパースター日本。 どれくらいのスピードで人口ピラミッドが変化しているのでしょうか。 徐々に増えているとは言われても、中々体感できないですよね。 RESASのデータを使って、人口ピラミッドの経年変化を観察してみようと思います。 RE…

RESASのAPIをPythonで利用してみた

RESASとは? 地域経済分析システム(Regional Economy Society Analyzing System)の頭文字をとってRESASと呼ばれているシステムです。 国が電子行政だの、オープンデータだのでいろいろと取り組んでいますが、その一環のようです。ウェブページもかっこよく…