月刊ブックレビュー vol.91 『教養としてのデータサイエンス』、内田誠一・川崎能典・孝忠大輔・佐久間淳・椎名洋・中川裕志・樋口知之・丸山宏

最初に「まえがき」の一節を紹介します。――「本書は、このモデルカリキュラムのうち『オプション』を除く『導入』、『基礎』、『心得』のキーワード（知識・スキル）を網羅的に扱う標準的な入門書として企画されました。‥略‥本書によって、すべての大学生がデジタル社会のパスポートといえるデータサイエンスの入門を習得し、（後略）」

「このモデルカリキュラム」とは、政府が2019年に発表した「AI戦略2019」を受けて翌2020年4月に公表された、「数理・データサイエンス・AI（リテラシーモデル）カリキュラム～データ思考の涵養」のこと。公表したのは、大学教育におけるデータサイエンス教育推進の中心拠点となっている、「数理・データサイエンス教育強化拠点コンソーシアム」です。

引用の後半部分に注目してほしいと思います。これはつまり、読者諸兄としては、「これから大学を卒業して各職場に入ってくる若者はこの本が教えている入門レベルのデータサイエンスを習得している」との基本認識で彼らを迎え入れるべきだということです。

この基本認識は、皆さんが彼らと、「キミ、こういうのできるだろ？　できるよね。じゃヨロシク」というふうに接するためのものではありません。迎える側が彼ら世代の思考体系を理解し共有し、コミュニケーションを成立させる――仕事でも個人としても――ための認識です。つまり、本書は大学教育の教科書でありつつ、皆さんのための教科書でもある。皆さんにとっても“パスポート”なのです。

学生は必ずしも全員が本書でデータサイエンスの基礎を学ぶとは限らないでしょう。別の教科書で学んだ学生も入社してくると思います。でも、迎える側は本書一冊理解しておけば大丈夫ではないか。読み終えてそのように思います。

じゃあ、教科書というからにはよほど真新しい知識が書いてあるかといえば、そうでもない。すでにビジネスの現場でバリバリ活躍されている皆さんにしたら、「似たようなことは自分も考えながら仕事をしているぞ」と感じることも多いと思います。例えば下記の一節。

「こうなると、消費者行動モデルの汎用性（モデルがどれくらい一般的に通用するかの）を追求しなくとも、個々の事象のケースバイケースの予測性能は、データを整理しパターン分類するだけでもかなり向上する。‥略‥標準的なモデルを先に構築し、状況に応じてそのモデルを変化させるのではなく、まず豊富に用意された行動の変容に関係する条件とその結果のペアをビッグデータから大量に得る。次に、それらを整理することで対応関係を作成し、その対応関係から未来の行動を予測するのである。」
（1.1 社会で起きている変化　p12より。下線は評者）

これなどは、ビジネスの現場では――情実で決まる部分を除けば――、もう知らず知らずのうちに受け入れ、実践している思考スタイルだと思います。その意味で本書は、皆さんにとっては、まったく新しい知識を得るというより、「充分に論理的に整理したことはないが無意識にやっていたことを論理的言語に直すプロセスが学べる本」という印象かもしれません。

そして――ここが重要ですが――、「論理的言語に直すことで新しいアイデアが見つかることがある」とわかるはずです。論理的言語の効能を思い知るはずです。ITは徹頭徹尾「論理的言語」の世界です。「今の若者は理屈だけで全部わかった気になる」と嘆く前に、まずは、理屈だけで今やどこまでわかるようになっているかを知り、それに学ぶほうが建設的です。

ただし、気を付けないといけないのは、データは基本的に一義的対応の世界だということです。上記引用下線部がそれに当たります。間の処理は恐ろしく多岐多様で、かつ多層で、有機的豊穣に満ちている（かのように感受できるからサイエンスとしておもしろい）としても、入力と出力の関係は常に一義的です。それ以上ではない。ここを心得ておかないと、例えば因果関係と相関関係をあっさり混同してしまいかねません。

その意味で、一般書として本書を読む読者が特に勉強になる箇所は、
◇22ページの「c因果と相関」
◇67～69ページの「a相関分析」「b疑似相関には気を付けよう」「c相関と因果関係は違う」
◇138～142ページの「2.1.7 相関と因果性」
だと思います。

これらを押さえたうえで、例えば104～107ページの「1.5.3 データ分析・自動化の実際」を精読すれば、年頭に際し自社のビジネスおよびマネジメントモデルを刷新するうえで打ってつけのヒントが見つかると思います。

評者が読んでいて印象に残り、「ああ･･･」と思わず溜息がもれたのは、上記のうち107ページの記述でした。データ科学的にきちんと評価され、デプロイ（配備）すべきだとなったモデルも、いざ実装の段になるとなかなか進まない、その事情を述べたくだりです。

「実は、多くのデータ分析プロジェクトで、このステップが一番難しいとされている。新たな予測モデルを使ってもらうためには、確かにその予測モデルが役立つ結果を出すことを納得してもらい（結果の共有・伝達）、それに基づいた課題解決に向けた提案、すなわち現行ビジネスプロセスの変更を、現場の人々に受け入れてもらう必要があるからである。」

ややこしい。マジでめんどくさい（笑）。ここで社会民主主義みたいな裁決を諮るから日本が産業後進国になってきたわけで、私たちは社会学者の宮台真司氏が言う「ラスボスがいない日本の劣等性＊1」をいつまで引き受けるのか。続く109ページには、このことの暗喩と受け取ると実り多い議論につなげていけそうな記述があります。引用します。

「（自動運転車の例をあげながら）もし、安全性の要求が非常に高くて、たとえば事故が起きた場合の効用関数の値をマイナス無限大に設定したとする。この場合、自動運転車はまったく動かないだろう。少しでも動けば事故が起きる確率はゼロにはならないからである。現実には、安全性をわずかに犠牲にしてもよいから「目的地点に到達する」という効用を実現しなければならない。このためには、安全性と効用とのバランスを定量的に指定する必要がある。「一定の確率でぶつかることを明示的に許容した自動運転車」という概念が社会に受け入れられるかは、統計的機械学習やブラックボックス最適化を組み込んだシステムにとって大きな課題といえよう。」

下線と太字は評者です。太字の箇所を現下の状況に照らして、「一定の確率で感染することを明示的に許容した社会」と読み換えたくなる人は多いと思います。でも、読み換えて「ゼロリスクってのはないんだから！」と短絡的に噴き上がるのは、誘惑に負けた、フォースの暗黒面に落ちた思考です。フォースを正しく使うなら（＝論理的に思考するなら）、ここで見つけるべきは、「責任を持って安全性と効用とのバランスを明示的に示し世に問う主体」、つまりラスボスの不在と、「示されたそれを自分たちの問題として公議公論に載せる土壌」、つまり（マスコミも含めた）民度の不在でしょう。

このままはマズい。年頭にあたり、すべての読者に本書を勧める所以です。

＊1　宮台真司×神保哲生【5金スペシャルPart1】年末恒例マル激ライブコロナ後の世界で権威主義とメタバースに取り込まれないために（54:42～）

（ライター筒井秀礼）

『教養としてのデータサイエンス』
著者　内田誠一・川崎能典・孝忠大輔・佐久間淳・椎名洋・中川裕志・樋口知之・丸山宏
株式会社講談社
2021年6月15日　第1刷発行
ISBN　9784065238097
価格　本体1800円