データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

分析基盤

ビッグデータ分析基盤に関する記事。Hadoop, HDFS, MapReduce, Hive, Spark, Impala, etc.

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com

Youngbin Kim et al. 「Serverless Data Analytics with Flint」

ktr89.hateblo.jp に関連して、サーバーレスでビッグデータ処理しているような事例を調べたら、他にも論文が出てきたので読んでみました。 Hadoopクラスターを自前で用意する時代は終わりを迎えていて、AWS LambdaやGoogle Cloud FunctionなどのFunction as …

Ecri Jonas et al.「Occupy the Cloud: Distributed Computing for the 99%」

面白そうな論文があったので、読んでみました。 とは言っても2017年の論文であまり新しくはないです。 Occupy the Cloud: Distributed Computing for the 99% UC BerkeleyのEcri Jonasらによる論文です。 arxiv.org Ecri Jonasは http://ericjonas.com/ によ…

Courseraの「Big Data Essentials: HDFS, MapReduce and Spark RDD」を修了した件

きっかけ 仕事で大量のアクセスログを分析することがあり、AWSのEMRとかAthenaとか使っています。 EMRでは計算機のクラスタが勝手に構築されて、HadoopとかHiveとかOozieとかとかが勝手にインストールされて、お膳立てしてもらった状態でやっとこさ分析でき…

「AI応用システムの安全性・信頼性を確保する新世代ソフトウェア工学の確立」をつまみ食い

戦略プロポーザルとは? 国立研究開発法人科学技術振興機構研究開発センターというお硬い感じの組織が戦略プロポーザルというものを定期的に報告してくれているようです。 彼らによると 「戦略プロポーザル」は、今後国として重点的に取り組むべき研究開発の…

書籍「Designing Data-Intensive Applications」まとめ(Part3)

はじめに Designing Data-Intensive Applications のPart3を読んだメモです。 ktr89.hateblo.jp の続きですね。 Part 3は Derived Data です。 日本語訳的には派生データといったところでしょうか。Part1/Part2では各種データベースの特性などについての記述…

書籍「Designing Data-Intensive Applications」まとめ(Part2)

ktr89.hateblo.jp に引き続き「Designing Data-Intensive Applications」のまとめです。日本語記事が少なくて、困っている方も多いのではないでしょうか? Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainab…

書籍「Designing Data-Intensive Applications」まとめ(Part1)

はじめに Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems作者: Martin Kleppmann出版社/メーカー: O'Reilly Media発売日: 2017/04/02メディア: ペーパーバックこの商品を含むブログを見る 機械…