IT記者会講演再録

IT記者会Reportに掲載したインタビューと講演再録です

AI・IoT時代のデータ標準化について平本健二氏(内閣官房政府CIO上席補佐官)の話を聞く(2)

f:id:itkisyakai:20180517111137j:plain

 データ構造の標準化の話をすると、「既存のモデルが使えない」ですとか「開発の柔軟性が失われる」といった異論がありますけれど、そんなことを言っていたのではアジャイルの時代に対応できない。システム開発の生産性を高めて品質を向上するのであれば、ITベンダーにとってもメリットがあります。

 独自設計に固執する現在の開発体制では、ITベンダーは人月モデルから脱皮できません。あとでアメリカの事例を紹介しますが、データ項目やモジュールを選択して組み合わせる「組み立てモデル」に転換すれば、ITベンダーは「新しい価値を生み出す」業態に変わっていけるんですね。

データ利活用の4ステップ

 で、データクレンジングと同時に大切なのは、データを活用できる環境を整えることです。PDFをやめてCSVにするとか色々な方法がありますが、そういう技術的な対応策とは別に、われわれは4つのステップが大事だと考えています。

 第1のステップは「見つけやすい」ことです。どこにどんなデータがあるのかが分からなければ、使いようがありません。それで「データカタログ」を作ったりサービスメニューを標準化したりしています。

 第2ステップは「使いやすい」こと。データの内容が精査され、構造化されているので、他のデータと組み合わせて利用できる。第3ステップは「自動処理できる」ことです。RPAなんかではデータが項目で分けられることが重要です。

 その上で第4ステップとして「解析できる」ことが位置付けられます。そうなって初めてAIやビッグデータで業務の高度化に役立つ。いきなりAIというわけにはいきません。ステージに応じたデータ整理を進めていく必要があるわけです。

 じゃ、政府は何をやっているか、という話です。冒頭で触れた「デジタルガバメント」が目指すのは、行政手続きのワンスオンリー/ワンストップ化です。各種の申請や許認可で、社名や住所、代表者の名前を一度登録したら、次からは法人コードを入力するだけでいい。1つのサイトにアクセスすれば、そこで一貫した手続きが終了する。そういう行政サービスを実現したいと考えています。

 ですがこれもいきなりはできないので、まずは申請書類の書式から整理していまして、「株式会社」のフリガナを「かぶしきがいしゃ」と書く人もいれば「かぶしきかいしゃ」と書くこともありますし、社名との間にスペースを入れるか入れないか、それも整理しなければなりません。

 申請書がきれいになると、会計書類がきれいになります。法人の基礎データっていうのは、実は日本も海外もあまり違わないんですね。それとか業務報告書とイベントのレポートというのは、基本的な構造は同じです。「いつ・どこで・誰が・何を・どうした」ということと「その結果はこうだった」を書くわけです。

 そうやって項目を整理すると、施設、イベント、日時、氏名など、だいたい10種類ぐらい。違うのは対象が何かということで、農業だったら畑の質とか水利とかが加わってくる。そいうことが分かってきます。

「IMI」=共通語彙基盤の役割

 そのうえで具体的に私たちが何をやっているかと言いますと、国としてのIT戦略があります。その上位のコンセプトとして「ソサイエティ5.0」があって、「観光」「農業」「健康」「移動」「行政」「防災」「インフラ」「製造」といったドメインを設定して、それぞれのドメインごとの項目と、全体に共通する項目を整理しています。病院の「診療受付」はドメイン語彙ですけれど、共通語彙でもあります。

 それを組み合わせたモデルが欲しいよね。ということでテンプレートを作っています。それがデータ利活用のプラットフォームになって、政府府省から地方自治体、さらに民間というかたちで展開していく作戦です。

 面白いのは、データは溜まっていくと力を持つようになるということです。システムのいちばん下にアセットというか、センサーがあって、そのうえにデータ連携、連携ツール群があって、データ利活用のツール群があって、業務ルールがあって組織があってルールがあって……。データがきちんとそろってくるとツール群がそろってくる。そうなると改善の要求が出てきまして、フィードバック・ループが動くようになる。

 ということで、ここ数年の取り組みとして、Infras tructure for Multilayer Interoperability、日本語の正式名称は「共通語彙基盤」ですね、略して「IMI」。「IMI」っていうのには若干のダジャレ(「意味」にかけている)が入ってます(笑)。これは「セマンティクス・インターオペラビリティ」と呼ばれる領域の取り組みでして、データの意味を定義していこうというものです。氏名の書き方で姓と名の間にスペースを入れるか入れないか、住所を「◯丁目◯番地」と書くかハイフンでつなぐか、電話番号の局番をカッコで括るかハイフンか、といったことです。

 これってコンピュータにとっては難しい。AIなら簡単だろう、なんてとんでもない。日付だって西暦か和暦か、日/月/年で表記するか年/月/日で書くか。2018と4桁で書くか18と下2桁で書くか。そのたびに変換していたのでは手間がかかるだけでなく、データの相互運用性は確保されません。

 去年の12月、国内で使われている約6万の漢字にコードを割り振って、それが国際標準になりました。IPA(情報処理推進機構)が15年がかりで策定した「MJ縮退文字」がそれで、戸籍、住民票、住所、地籍の特殊文字、いわゆる「外字」がコンピュータで処理できるようになりました。

データ駆動型の超高速開発

 もう一つ、今年の4月から法人名にフリガナを入れることができるようになりました。これまではフリガナがなかったので、ヨミの50音順に並べることができなかった。漢字の画数順に並んでも意味がないじゃないですか(笑)。

 それとアルファベットもOKになりました。海外の会社と取引するとき、これまでだと弁護士さんに頼んで裏書きしてもらうしかなかったんですが、アルファベット表記もOKですから、これからは「本当にある会社なの?」と疑われることはありません。

 地方公共団体の関心が高いのは、観光情報のコードだと思います。山とか川とか施設とか、それを集めると全国で1700種類の分類ができちゃう。ITベンダーが入っていますので、ベンダーごとにいくつかのパターンができるんですが、結局はバラバラです。それでコードマッチング表が役に立つんです。

 公共調達の物品コードも同じです。コードを統一するんじゃなくて、対照することができる。それだけだって前進なんです。とりあえずはコード一覧でいい。できるところからやっていこうという取り組みです。ただそのとき国際的な参照モデルは無視できない。男女のコードは日本は男性が「1」、女性が「2」ですが、国際は「0:不明」「1:男性」「2:女性」「9:適用不能・答えたくない」です。しかも国際標準では「数字の順番は男女の優劣を意味していない」ということまで書いてある。

 で、そのように思いつきで項目を作るんじゃなくて、あらかじめ決めておくと、データ設計の時間が短くなる。同じパーツは共通化し、モジュール化して必要なものを使うと、必然的に構造化になって相互運用性が高くなる。基本構造にちょっと独自の仕様を加える、それが勝負するところというイメージでしょうか。

 指向するのは「データ駆動型」ということになるのですが、機械翻訳する場合もディスクリプションだけなので、翻訳エンジンがものすごく楽になるし、拡張性が高くなります。IT製品の輸出入がありますんで、このやり方を日米欧連合でやろうよ、ということになっていまして、私も来月、ヨーロッパに行くんですが、日本のセッションがちゃんと用意されている。日米欧でデータ項目をそろえていきましょう、ということになっています。

 実際の身近なサービスで何があるかというと、スキーマーオルグ(Schema.org)という仕組みがあって、Webでお店や会社が営業中とか営業終了とか表示される。裏側でスタート、エンドの時間を持っていて、スマホのタイマーと連動しているんですね。じゃ、これでなんでも行けるかというと、公共機関は無理とか、それぞれの事情があります。

 米陸軍の知識ネット(Army Knowledge Online:AKO)というシステムは、プロセスにBPMN(Busi ness Process Modeling Notation)を採用していまして、帳票とか画面のデータ項目はデータベースから共通のものを引っ張ってくることによって、世界のどこで作っても、翌日には全世界に展開できる。データ駆動型の超高速開発が可能になるわけです。

 最後にお伝えしたいのは、「シンクビッグ(Think Big)/スタートスモール(Start Small)&スケールファースト(Scale First)」です。データの標準化を考えるならワールドワイドの視点を持たなければなりません。マーケット戦略と同じで、遠い先まで見通さないといけません。

 けれど、「果てしない旅」なのでスタートスモールで、ショウケースを積み上げていって、それでスケールファーストということで、うまく行くようだったら範囲を広げてデータを増やしていく。そういう取り組みが必要かな、と考えております。

 ということで、やっと助走を終えて飛び始めたところですが、もっとお知りになりたい方はIPAのサイトで「IMI」で調べて頂いて、参照していただけるとよろしいかと思います。以上で私からの話を終わらせていただきます。ありがとうございました。(拍手)

f:id:itkisyakai:20180517111745j:plain