データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

Spark

Junhao Li et al. 「Blaze: Simplified High Performance Cluster Computing」

arxiv.org 著者 Junhao Liさんはコーネル大学の博士課程の学生のようです。 Hang ZhangさんはAmazon AIチームの方のようです。 背景 多くのMapReduceはdata-intensiveなタスクにフォーカスしている。 実世界には、compute-intensiveなタスクもたくさんあるが…

URL前方一致クエリを高速に実行するためにhttp://を除外してみた(Spark編)

ktr89.hateblo.jp をSparkでも実験してみた件。URLの前方一致検索をするときに、http://とかhttps://を排除して保存しておいた方が速いんじゃないの?という仮説の検証です。今回はSpark(Scala)を使ってみます。

URL前方一致クエリを高速に実行するためにhttp://を除外してみた

アクセスログを分析していると、URLを条件とするクエリを書くことが多いと思います。特に、計測用のパラメータを使った分析などでは、前方一致を使ったクエリが多くなると思います。 SQLで書くとこんな感じですね。 select uid, url from accesslog where re…

書籍「Designing Data-Intensive Applications」まとめ(Part3)

はじめに Designing Data-Intensive Applications のPart3を読んだメモです。 ktr89.hateblo.jp の続きですね。 Part 3は Derived Data です。 日本語訳的には派生データといったところでしょうか。Part1/Part2では各種データベースの特性などについての記述…