10年戦えるデータ分析入門 SQLを武器にデータ活用時代を生き抜く を読んだ

読んだ。

最近またデータ活用的なところをやる機会が来るかもなので、今ってその辺どんな感じなんだろうというのを知りたくて本書を手にとった。ボリューム自体は重くなく、数時間で読めた。

感想

第1部の SQL 初級入門な章は流し読みした。

第2部以降、下記のような話が網羅されていて参考になった。

  • データソース層、DWH層、データマート層の3層構造
  • オンプレミスとクラウドサービス利用のトレードオフ
  • ディメンションテーブル(スタースキーマ)
  • ETL と ELT
  • DWH 向けデータベース製品のそれぞれの特長の説明(BigQueryやHadoop含む)
  • データ構築のバッチは処理の粒度を細かくして冪等に作ろうって話
  • 差分更新・全件更新の話

あとテストの話も書いてはあるが、SQLが正常に動くことや件数が正しいことのテストだった。
実際にデータの内容が正しいかのテストがデータ基盤のテストとしては最も重要だけど方法として確立されたものは聞いたことがないので、その辺についてなにか書いてくれてることを期待してた。この本に載っていないということは、まだそういうテスト手法は出てきてないのかもしれない。

その他

2011年から2013年くらいまでひたすらバッチで Hadoop にデータを入れてそれを HiveQL で集計・抽出という業務をやっていた時期があって、その時に感じていたことやみんなで考えていたような事が書かれていたりして懐かしく思ったし、当時の自分たちの方法が肯定される記述も多くて良かったと思った。
当時はこういう大規模データ運用現場に関する知見があまり出回ってなかった気がする。(Hadoop とかビックデータという言葉はやたらバズっていたが。
あの時この本読んでたらなーとも思った。

データ分析基盤を作っている人やこれから作っていこうとしている人にとって本書はとても良いものだとおもいました。