データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

データ分析

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。 yutori-datascience.hatenablog.com 今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。 github.com modinとは modinはU.C Berkeley…

URL前方一致クエリを高速に実行するためにhttp://を除外してみた

アクセスログを分析していると、URLを条件とするクエリを書くことが多いと思います。特に、計測用のパラメータを使った分析などでは、前方一致を使ったクエリが多くなると思います。 SQLで書くとこんな感じですね。 select uid, url from accesslog where re…

「データ分析の力 因果関係に迫る思考法」のつまみ食い

はじめに ビッグデータの分析基盤を仕事にしていると、いやでもデータ分析手法に興味が湧きます。 データ分析の力 因果関係に迫る思考法という本をamazonでオススメされて、気軽に読める分量だし読んでみました。 データ分析の力 因果関係に迫る思考法 (光文…

書籍「Designing Data-Intensive Applications」まとめ(Part3)

はじめに Designing Data-Intensive Applications のPart3を読んだメモです。 ktr89.hateblo.jp の続きですね。 Part 3は Derived Data です。 日本語訳的には派生データといったところでしょうか。Part1/Part2では各種データベースの特性などについての記述…

書籍「Designing Data-Intensive Applications」まとめ(Part1)

はじめに Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems作者: Martin Kleppmann出版社/メーカー: O'Reilly Media発売日: 2017/04/02メディア: ペーパーバックこの商品を含むブログを見る 機械…

東京都女性はBMIは小さいのか?

今回は政府が公開しているNDBオープンデータをグラフ化して見たいと思います。 NDBオープンデータとは? http://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000139560.pdf 行政がこういう形で分析可能な形式でデータを公開してくれるのは大…

RESASのAPIをPythonで利用してみた

RESASとは? 地域経済分析システム(Regional Economy Society Analyzing System)の頭文字をとってRESASと呼ばれているシステムです。 国が電子行政だの、オープンデータだのでいろいろと取り組んでいますが、その一環のようです。ウェブページもかっこよく…

駅ごとの中古マンション平均価格。大久保駅が案外高い?

中古マンションの価格分析シリーズです。 六本木駅とか、新宿駅とか住んでみたいなとは思いつつ、やはり高いですよね。 実際どれくらいの値段の違いがあるのでしょうか。 今回も大手不動産メディアの東京・埼玉・千葉・神奈川の中古マンションデータを使って…

中古マンションの値段が路線ごとにどれくらい違うのか調べてみた

はじめに 最近中古マンションの購入を検討しています。 マンションによっては、値上がりしたり値下がりしたりと、勘を働かせて買うことになるかと思います。 住宅ローンを組んだのに、買ったマンションの値段が下がったら残念すぎますからね。 不動産屋さん…