【書評】データ指向アプリケーションデザインを読了して見える世界

1ヶ月ほど読み進めていた「データ指向アプリケーションデザイン」を読了しました。
オライリーから出版されている本の中でも、かなり分厚い部類の書籍だったのと、章ごとの情報量が凄かったので結構、時間がかかってしまいました。

データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理

作者:Martin Kleppmann
オライリージャパン

個人的には難易度の高い書籍だと思うのですが、それでも多くの方からオススメされてきた書籍でもあります。
今まで読んでは飽き...読んでは飽き...を繰り返していましたが、ようやく一貫して読了したので簡単に書評を書いてみたいと思います。

デカい...! 分厚い...!

データ指向アプリケーションとは何か

元々、コンピューターは演算処理を高速化するために開発されました。
当時は簡単な演算処理をするのにも多くの時間とリソースが必要だったことでしょう。僕は実物を見たことはないのですが、古いコンピューターでの演算といえば「パンチカード」が有名です。
しかし、今日ではCPU処理性能が向上したこともあり、自分のような一般人にとっては演算処理がボトルネックになることは、ほとんどなく快適にコンピュータを使用することができます。とはいえ気候予測や物理計算などの分野では、演算処理に特化したスーパーコンピューターが活用されています。

引用元: パンチカードでプログラミングする方法 / How to program on the punch card

そして時代は変わり、インターネットの普及によって多くのアプリケーションが全世界で公開されており、大量のデータが毎日のように作成されています。今となってはアプリケーションのボトルネックは、データ(量、複雑さ、変化)です。
どのようにデータを扱いアプリケーションを稼働させるかという点に重点がおかれます。

まさしくこれが「データ指向」です。
本書ではデータ指向アプリケーションが、取り組まねばならない3つの課題を中心に章が構成されています。

信頼性
スケーラビリティ
メンテナンス性

3つの課題に取り組むにあたって自然と、分散データや分散処理に触れられていきます。
詳しい内容については情報量が多すぎるので紹介できませんが、次に各章がどのように展開されていくのか紹介します。

章の展開について

この書籍は大きく3つの部から構成されています。

第Ⅰ部データシステムの基礎
第Ⅱ部分散データ
第Ⅲ部導出データ

読んでいて面白いな...と感じたのが1章で「データ指向アプリケーション」についての説明が終わった後に、次の章からデータベース、ストレージの仕組み...が説明されていく点です。
自分の読書前のイメージだと、大規模データを扱うにあたってのグッド・バッドプラクティス、どういった特性に注意すべきかについての内容が、メインコンテンツだと思っていましたが違いました。

データベースって何なのか
RDBが人気なのは何故なのか
NoSQLが誕生したのは何故なのか
RDB・NoSQLの使い所について
そもそもデータはどうやって記録されているのか
読み取ったデータはどうやって展開されるのか

etc...

ここまで第Ⅰ部の説明が終わってから、ようやく第Ⅱ部分散データ(レプリケーション・パーティショニング)の内容が登場します。というのも分散データを考えるにあたって、どのようにデータが記録されているのかを理解しておくことが重要だからだと思われます。そして最後に、分散データをどのように処理するかという第Ⅲ部導出データ(MapReduce・ストリーム処理)が登場します。

章の構成がとても良く出来ていると感じました。

読了して見える世界

以前、分散コンピューティング技法という書籍を読んだ際にも触れられてた内容なのですが、逐次処理が並行処理になった途端に複雑さが跳ね上がります。第Ⅱ部でレプリケーションやパーティショニングといった内容が登場するわけですが、単にデータを複製・分割すれば万事解決というわけではなく様々な問題が発生するようになります。

例えば、レプリケーションの場合、マスターDBからレプリカA,B,Cへのデータ同期を行う必要があるとします。
まずデータ同期の方法を同期・非同期で行うかを決める必要があります。同期的に行うとデータ同期に時間はかかりますが、信頼性が高くエラーハンドリングが行いやすいでしょう。一方で非同期の場合、データ同期に時間はかからないですが、本当にデータが同期されたのか分からず信頼性が低くなります。

どちらも対処方法は考えられるものの、さらに別の問題が発生する可能性があります。

同期的にデータを同期する途中で、ネットワーク障害が発生した場合にどうするのか
レプリカA,Bへの同期は成功したもののレプリカCへのデータ同期に失敗した場合に、ロールバックするのか
マスターDBが何かしらの理由でダウンした場合にどうするのか
レプリカA,B,Cから新たなマスターを決定する場合、どのように決定するのか
マスターを決定した際に複数マスターが決定されてしまわないか

こういった問題に向き合い「信頼性・スケーラビリティ・メンテナンス性」をいかにして確保していくのかを検討するのが、データ指向アプリケーションデザインなのかなと思います。
自分はkubernetesやCloud Runなどを使ってサーバー分離やスケーリングを経験したことはありますが、複数台のレプリケーションやパーティショニングを行ったことはありません。安易にデータを分散すれば良いものだと考えていましたが、新たに発生するこれらの問題のことを考えると頭が痛いです...。

上記で挙げたよくある問題はミドルウェアがカバーしてくれているものもあります。
とはいえ、そもそもこういった問題を認知できていないと、技術選定やアルゴリズムを採用する際にトレードオフの判断をすることができません。読了した今、単一のサーバー・DBから複数台のサーバー・DBになった時に起き得ることを、少しでも想定できるようになったのかなと感じています。