AI・IoT時代のデータ標準化について平本健二氏（内閣官房政府CIO上席補佐官）の話を聞く（１）

　平本健二氏の肩書きは「内閣官房政府CIO上席補佐官／経済産業省CIO補佐官」と、それだけ聞くと何となく近寄りがたい。実はけっこう面白い人なのだが、それはそれ。古くは2009年の経産省アイディアボックス、最近では国内で使われている約6万種の漢字をコード化した「文字情報基盤（MJ）縮退マップ」と、CIO補佐官として成果は少なくない。5月17日、東京・大井町で開かれたJASPAフェア2018での講演「AI・IoT時代におけるデータ標準化と政府の取り組み」を再録する。

f:id:itkisyakai:20180603221617j:plain

f:id:itkisyakai:20180603222031p:plain — 平本健二氏

平本　平本です。政府全体の電子行政、「デジタルガバメント」と呼んでいますが、政府の手続きが使いづらいとか色んな話があると思います。その見直しのために、ボトムから直していこう、特にデータをきれいにしようという取り組みをしています。

　数年来、データのプラットフォームはどうあるべきか、それを議論してきたんですけれど、３年ぐらい前ですと、まだまだデータの標準化ですとか、データをどうやって連携するかという話をしても、なかなか理解してもらえませんでした。政策としてすごく地味なんですね。皆さん、オンライン申請とかAIを使ったモデルプロジェクトとか、そういうところに目が行っちゃう。われわれは、そのためにはデータが大事だと。その時代が来ると信じてやってきたわけです。

　ところがいまは人気沸騰中でして、各府省から教えてくれと言ってくる。企業の方からも「何をやっておけばいいのか」というご相談をたくさん受けておりまして、まさにAI、IoT時代のデータ標準化ということです。

世の中にあふれるデータをどう使うか

　で、世の中にはデータがあふれていまして、ユーザー企業の方々とお話する機会が多いんですが、皆さん困っていることは、社長が「我が社でもＡＩを使いたい、ビッグデータを使いたい」とか言うんだけれど、自分たちの会社がどんなデータを持っているかも知らないし、ましてどんなデータと組み合わせたらいいかもわからない。

　一つは「テキスト情報」と呼ばれるものがあります。商品リストですとか連絡先ですとか。これと「画像情報」「センサー情報」をどう組み合わせるか、どう活用して自社のシステムを改善していくか、どう統合して新しいサービスを作っていくかということです。そのうえでどうやってAIとかビッグデータとかを組み合わせるかということを考えていかなければならない。ところがベンダーさんに相談してもわからない。

　さきほども言いましたが、データの標準化っていうのは地味な取り組みでして、目先ではIoTですとかAIですとか、ビッグデータはどうなんだ、RPA（Robotic Process Automation）やチャットポッドを入れたらどうなんだとか……。確かにそうなんですけど、実際のところAIやIoTは海面からのぞいている氷山の頂点で、その後ろに巨大な氷のかたまりが隠れている。いろいろな企業さんとお話をしていくと、その元になるデータの存在がものすごく大きいわけです。

　例えば工場で持っているデータもあれば、サービス部門が集めてくるデータもある。センサーを付けるだけで色々なデータを集めることができます。つまり会社が持っているデータっていうのは種々雑多で、例えば社員についてだって、休憩時間をどう取っているか、どこに住んでいる人が多いかとか、いろんなデータがあるんです。けれど、それを使いこなせていない。そのために中長期的な目線で、データ連携を重視しています。

規格化じゃなく参照モデル

　「標準化」というと、皆さんが思い浮かべるのはISO××（ペケペケ）だと思います。ですが、われわれのアプローチっていうのは、規格化ではありません。既存のシステムがありますし、そこにはユーザー独自に設計した構造のデータもあって、あるいは高速に処理したい場合にはそれに合わせたデータになっているわけです。それはそれでいいと思うんですが、外とつなぐ場合、データ連携にふさわしいデータの持たせ方は必要でしょう。

　くどくど説明するのが面倒なので「標準」という言葉を使っていますけれど、実際は「リファレンス・モデル」、つまり参照ですね。「標準」って言うと、規格があって、それに合わせなきゃなならないイメージがあるんですが、これまでのものを変えるのにお金がかかる、面倒くさい、だからスタンダードは嫌いっていう人が少なくないんですね（笑）。確かにいちいち「標準」に合わせて変換していたら、手間ばっかりかかって面倒です。ですがいろいろなデータ変換ツールがありますし、郵便番号を入れたらポンっと住所が出る仕掛けもある。

　それともう一つ、ルールというものがあります。自分の会社の中では独自のルールでいいんだけれど、他社のデータを組み合わせて何かやりたい、自治体とか研究機関とかが公表しているデータを活用したいとなりますと、そのうちいろいろなデータがごちゃごちゃになって、何が何だか分からなくなってくる。そのとき変な構造のデータが紛れ込んでいると、全体の信頼性、品質が落ちてしまう。ということで、いま国としては「データ連携標準」を推進しています。

　勘違いしやすいのは「互換性」です。ルールまで含んでの話なので、われわれは「相互運用性」と言っています。要するに「インターオペラビリティ」です。単にデータがやり取りできればいいということではなくて、ポイントは運用ルールまで含めたかたちまで相互運用ができるかです。

重要なのはデータクレンジング

　データの相互運用性を業種ごとに確保しましょう、データを変換して使いましょうというのは、AI・IoTの時代にあまり意味はありません。業種の壁を超えてデータが相互運用されなければなりません。

　分かりやすいのは……、そうですね、例えば「社員数」。正社員だけなのか、非正規も含むのかということです。標準化されたデータ構造をユニットとして、レゴブロックのように組み合わせていく。企業オリジナルのデータは競争力の根源でもあるわけですから、それはそれで使っていけばいい。でも外部とやり取りするデータにはレゴブロックを使う。

　欧州のインダストリー4.0でも重視されているんですが、大切なのは「データクレンジング」です。よく「AI・IoT時代の人材が足りない」と言われます。「データ・サイエンティストが絶対的に不足している」と言われますが、よく考えると、その作業の8割がデータクレンジングなんです。働き方改革と言われる中で残業時間が厳しく制限されるのに、これでは生産性が上がるはずがない。

　データの構造がきれいで、いろいろなデータを自在に組み合わせ、ツールを使うことができると、人材が活躍できる時間を作れるようになりますし、新規産業の創出にも役に立ちます。ビジネスのスピードが飛躍的に高まります。どんなことかというと、AIが使いやすくなるのはもちろんですが、企業では収集できない、個人ならではのデータを有償で提供する時代が、すでに一部では実現していますが、それをサブスクリプション化して、そういう人たちを組織化するビジネスも成立するでしょう。

　もう一つは企業のM&Aが容易になる。これまでだと会計や販売、在庫、人事といった基幹系のデータを集めてきて、項目を整理してデータクレンジングをしないと事業統合ができなかった。しかしデータの構造に相互運用性がありますから、統合が比較的スムーズになります。M&Aだけではなくて、データ設計の時間を大幅に短縮できるので、システム開発の期間を短期化したり、システム選択の幅が広がります。ベンダー・ロックインからの解放につながるんですね。

f:id:itkisyakai:20180517110610j:plain