データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

aws

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com

Android タブレットでコーディングしてみた

ソフトウェアエンジニアの休日の勉強環境としてタブレットを使えないかと実験中です。 カフェでタブレット使ってたらおしゃれだと思ったので。 ソフトウェアエンジニアが休日に勉強するための環境 - データが主食 Android タブレット 以前購入したこのAndroi…

Junhao Li et al. 「Blaze: Simplified High Performance Cluster Computing」

arxiv.org 著者 Junhao Liさんはコーネル大学の博士課程の学生のようです。 Hang ZhangさんはAmazon AIチームの方のようです。 背景 多くのMapReduceはdata-intensiveなタスクにフォーカスしている。 実世界には、compute-intensiveなタスクもたくさんあるが…

ScalaでMeCabを使うためのセットアップメモ

Amazon Linux2上のScalaでMeCabを使うためのセットアップメモです。 Scalaセットアップ $ sudo yum erase java-1.7.0-openjdk $ sudo yum install java-1.8.0-openjdk $ curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.…

Youngbin Kim et al. 「Serverless Data Analytics with Flint」

ktr89.hateblo.jp に関連して、サーバーレスでビッグデータ処理しているような事例を調べたら、他にも論文が出てきたので読んでみました。 Hadoopクラスターを自前で用意する時代は終わりを迎えていて、AWS LambdaやGoogle Cloud FunctionなどのFunction as …

Ecri Jonas et al.「Occupy the Cloud: Distributed Computing for the 99%」

面白そうな論文があったので、読んでみました。 とは言っても2017年の論文であまり新しくはないです。 Occupy the Cloud: Distributed Computing for the 99% UC BerkeleyのEcri Jonasらによる論文です。 arxiv.org Ecri Jonasは http://ericjonas.com/ によ…