データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

並列処理

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com

データ構造「Conc Tree」を調べた

Scalaで並列プログラミングを勉強している中で、今まで知らなかったデータ構造「Conc Tree」に出会ったので整理してみました。 原著 最初に紹介されたは2015年の論文のようです。 Conc-Trees for Functional and Parallel Programming Oracle従業員のAleksan…