データが主食

データエンジニアの備忘録。分析だったり、読んだ本のメモだったり。

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

Outside Insight 競争優位を導く「ネットデータ活用」戦略

  • 作者: ヨーン・リーセゲン,坂口恵
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2019/06/20
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る
を読んでみたら、なかなかに面白かったので内容を紹介します。

続きを読む

modin.pandasのread_csvの速度計測してみた

以前、pandasやdaskでのread_csvする様々な方法の速度比較記事がバズってました。

yutori-datascience.hatenablog.com

今回、modinなる分散処理高速化のpandasを見つけたので、比較をやってみようという内容です。

github.com

続きを読む

ICSE2019 "Software Engineering for Machine Learning: A Case Study"を読んだ

Microsoft Researchの研究員の方々が、社内のAI関連開発者への聞き取りを通じて、機械学習関連システムのためのソフトウェア工学知見を整理した論文です。

International Conference on Software Engineering(ICSE2019)というソフトウェア工学の国際学会で発表された論文です。

2019.icse-conferences.org

続きを読む

coder.comでscala環境を整える

Android タブレットでコーディングしてみた - データが主食

ソフトウェアエンジニアが休日に勉強するための環境 - データが主食

Coursera課題用EC2インスタンスのセットアップ - データが主食 などで、勉強環境を述べてきましたが、最近ではcoder.comが流行ってますね。

coder.com

例によって、coder.com上でscalaコーディングするための環境を構築した際のメモです。

javaのセットアップ

sudo apt-get install openjdk-8-jdk

sbt のセットアップ

echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823
sudo apt-get install apt-transport-https
sudo apt-get update
sudo apt-get install sbt

メモ

  • coder.comではSparkが動かないようです。動かせた人がいたら教えてください。