データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

分散処理

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com

Cloud Nativeとは?

仕事のプレゼンで、「CloudNativeで.....」とか「クラウド流儀に反する」とか、それっぽい表現する機会がありました。 しかし、実際のところ、Cloud Nativeってなんなのか定義はよくわかっていませんでした。 先日、なかなか良いCloud Nativeの説明を見つけ…

Junhao Li et al. 「Blaze: Simplified High Performance Cluster Computing」

arxiv.org 著者 Junhao Liさんはコーネル大学の博士課程の学生のようです。 Hang ZhangさんはAmazon AIチームの方のようです。 背景 多くのMapReduceはdata-intensiveなタスクにフォーカスしている。 実世界には、compute-intensiveなタスクもたくさんあるが…

Youngbin Kim et al. 「Serverless Data Analytics with Flint」

ktr89.hateblo.jp に関連して、サーバーレスでビッグデータ処理しているような事例を調べたら、他にも論文が出てきたので読んでみました。 Hadoopクラスターを自前で用意する時代は終わりを迎えていて、AWS LambdaやGoogle Cloud FunctionなどのFunction as …

Ecri Jonas et al.「Occupy the Cloud: Distributed Computing for the 99%」

面白そうな論文があったので、読んでみました。 とは言っても2017年の論文であまり新しくはないです。 Occupy the Cloud: Distributed Computing for the 99% UC BerkeleyのEcri Jonasらによる論文です。 arxiv.org Ecri Jonasは http://ericjonas.com/ によ…

書籍「Designing Data-Intensive Applications」まとめ(Part3)

はじめに Designing Data-Intensive Applications のPart3を読んだメモです。 ktr89.hateblo.jp の続きですね。 Part 3は Derived Data です。 日本語訳的には派生データといったところでしょうか。Part1/Part2では各種データベースの特性などについての記述…

書籍「Designing Data-Intensive Applications」まとめ(Part1)

はじめに Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems作者: Martin Kleppmann出版社/メーカー: O'Reilly Media発売日: 2017/04/02メディア: ペーパーバックこの商品を含むブログを見る 機械…