IT記者会講演再録

IT記者会Reportに掲載したインタビューと講演再録です

国分芳宏氏(3)

この記事は2009年3月現在のものです

仕様書用ワープロを作りませんか

f:id:itkisyakai:20090130144525j:plain

「など」の排除は当たり前  

――ここまでのお話を整理しますと、文の曖昧性を生み出す原因は係り受け、並列構造、表記の揺れ、代名詞の4つ。「など」「および」はあまり問題じゃない、ということですか?

国分 いや、そうじゃなくて、「など」が曖昧性を生み出すのは明らかなんで、あえて言わなかったんです。「など」を排除したければ、キーボードで「など」と入力したときアラームを鳴らすとか、入力できないようにすればいい。あるいはテキストから「など」を抽出して赤く表示してあげればいい。それより、無意味な付属語を削って代名詞を補正する。その上で単語の距離を測る。そうすると文全体の曖昧性がかなり排除できる。  

――「など」「および」を排除したり、アラームを表示するのは難しいことじゃない。なのに、どこも作ろうとしない。なぜなんですかね?

国分 みんな、簡単だって思うからですよ。だってそれだけなら、禁則のファイルを組み込めばいいんだもの。観光地に住んでいる人にとってお寺や神社はいつでも行ける。だから行ったことがない人がいてもおかしくない。  

――なるほどね。私も以前、芝の増上寺の脇を抜けて東京タワーに毎日、25年近く通ってたけど、展望台に昇ったのは何回もなかったし、増上寺にお参りしたことは一度もない。せいぜい桜の季節、境内に入ったぐらいです。

国分 その気になればいつでもできる、って皆さん、思っている。だからいつまでもできない。もう一つ。いざ作ろうとすると簡単じゃない。禁則を組み込む程度のことじゃ、文章の曖昧性は解決しないんです。まず用語を統一しなければならない。統一して言葉と言葉の関連を調べて、ルールを作る。これがたいへんなんですよ。だから本当は、作ろうとしないんじゃなくて、作れない。本気で取り組んだら、構文解析のアルゴリズムが必要になるから。  

――国分さんの手法を使えば、何とかなるんじゃないかな。

 

共同で実証実験する方法

国分 最初にも言ったように、私は汎用性を重視してきましたから、いま当社のアルゴリズムやシソーラスを採用しているのはWebの検索エンジンだったり、電子辞書だったりなんですね。それをいきなりシステム設計の要求仕様書に適用しても、佃さんが期待するような結果は得られないんじゃないかと思います。  

――私が提案したいのは、だから共同で実証実験をして、仕様書用に精度を高めましょう、ということです。ワープロ機能はジャストシステムのATOKでもマイクロソフトのIMEでも構わないんです。ただシソーラスとか単語距離測定のアルゴリズムとなると、国分さんの仕掛けだな、と思います。

国分 そう言っていただけるとありがたい。実は日本語に関する学会や海外からも高い評価をいただいていましてね。いま、学会に発表する論文を書いている。それとこの前は韓国の方が視察にいらしたり、タイ語のシソーラスを作るというお話もある。  

――特許とか取れませんか? 韓国の言葉は構文的には日本語と同じだから、単語を置き換えるだけでいい。国分さんの手法が世界に飛び出すチャンスじゃないですか。その意味でも要求仕様書用にブラッシュアップというか専用化というか、そういうマルチクライアント型のプロジェクトが必要ですよ。

国分 要求仕様書用のシソーラスと構文解析アルゴリズムがあれば、ソフト開発のオフショアに適用できるという考えでいいですか?  

――必ずしもオフショア開発ばかりではないでしょう。ユーザーだって社内のエンドユーザーの要求を文書化するのにたいへんな思いをしている。外部に発注するとき、検収するときにも役に立つ。ユーザーも含めて、とりあえず10社ぐらいからお金と人を出してもらって、その代わり成果物の使用権を与えるというようなやり方がありますよ。最初は飲み会から始めたっていい。

国分 飲み会ならいつでも歓迎です。近くにいい場所がありますから(笑)。  

――まず仲良くなって、共通の目標とルールを作って、それから実務に適用した結果を出してもらう。これもIPA(情報処理推進機構)の鶴保さんの受け売りですけど、エンピリカルな実証データをつみ重ねることが重要なんですよね。改良する作業は何も一か所に集まる必要はない。

国分 私の事務所に集まってもらってもいいけど、狭いしなぁ。  

――専用のサーバーを用意しておけばいい。そのために1社500万円といっても、エンジニアの人月価額に置き換えたら5人か6人分です。景気が悪くなって仕事が減るんだから、どうせ遊ばせるなら将来に役立つ研究開発に従事させたほうがいい。そう考える会社が10社ぐらいあるでしょう。

 

コミュニケーション力と解釈力

国分 話は最初に戻ってしまうけれど、正確なドキュメントが重要だ、っていうのは30年前、40年前も言われてました。要求仕様書の記述が曖昧なんで、できあがったプログラムの品質が悪い。結果として手戻りが起こる。そんなの、決まってるわけでね。それがいまだに実現していないのはなぜかを考えるべきじゃないですか?  

――興味深いのは、1980年代までのメインフレーム全盛期は、それでも大規模なシステムができていた、という事実です。いま大きなシステムトラブルを起こしているのは、1990年代以後に開発されたシステムで、それ以前のシステムはトラブルを起こしていない。ちょっとした見落としが致命傷になっているんですね。仕様書は当時の方が曖昧だった、というか、今よりよほどいい加減だったと思うけれど、銀行のオンラインシステムとか、製鉄所の圧延システムなんか、ちゃんと動いていた。

国分 「ちゃんと」の定義が必要ですけどね。  

――あっ、それは迂闊でした(笑)。私が新聞社に入った30年ほど前、読者管理を日本電気の中型汎用機で処理してましてね。その元となるデータの入力と出力を東芝の日本語ワープロでやってました。

国分 当時の日本語ワープロって、1台400万円ぐらいした。  

――大きな文字タブレットがあって、そこに表示されてる漢字を電子ペンでタッチしていく。その話は別の機会にしますけど、汎用コンピュータと日本語ワープロだから、データをコンバージョンしなければならない。1年ほどそのシステムを動かしたことがあるんですけど、ドキュメントって言ったって、A4のペラ紙が3枚しかない。しかもそこに書かれていたのは四角とか直線。つまりフローチャートなんですね。ところがシステムを作ったエンジニアのロジックがしっかりしているんで、その通りに操作すればちゃんと動く。

国分 佃さんが言いたいことは分かります。ロジックがしっかりしていれば何とでもなるんですよ。ただ1980年代に作られたシステムが今も動いているんですか?

ーー去年だったか一昨年だったか、日本情報システム・ユーザー協会(JUAS)が調査したところ、メインフレーム型のシステムの平均寿命は17年だそうです。モノによっては25年というケースもある。そろそろ限界がきていて、全面的な更新が始まる段階なんですね。それと、これは下條さん(武男氏:日本コンピュータ・ダイナミクス会長)が話していたことだけど、「システムが複雑になり過ぎて、全体を見渡せなくなっている。今のエンジニアは可哀想だ」というんです。だからこそ、要求仕様書が重要になってくる。

国分 私はね、長年、日本語の構文解析を研究していて思うんだけれど、最近はコミュニケーション能力の問題もあるんじゃないかと思っている。開発現場でもエンジニア同士で分かったような、実は分からない会話を繰り返しているんじゃないか。要求仕様書がロジカルに記述されても、解釈がいい加減なら話にならない。

ーー彼らの日本語力だけを責めても仕方がない、ともいえませんか。私はいつのまにか57歳になっていて、「近頃の若い者は」に近いことを口にしているようなんですけれど、国分さんたちの世代と比べたら、漢文や古文の知識は希薄です。まして今の40代以下の人はテレビで言葉を覚え、気がついたら目の前にパソコンとインターネットがあった。私が社会に出た年に生まれた人が、企業の中堅になっている。だからいま日本語を見直す動きがあるんでしょう。

 

いまなぜ日本語か

国分 コンピュータの世界で日本語がブームになったのは1970年代と1980年代の2回。最初は漢字処理、2回目は日本語ワープロ。いまは検索エンジンの中で日本語の構文解析が注目されている。  

――世の中は漢字ブームですけど、あれは切り刻まれた知識の話で、日本語というわけじゃない。これからはより専門化された辞書と構文解析じゃないですか。ITの世界では要求仕様書とか技術資料。ただね、もう一つ別の問題があって、それは日本語の標準化を進めているのが文部科学省、経済産業省、法務省、総務省とバラバラなんですね。国語審議会が常用漢字をいじると、コンピュータの文字コードに影響してくる。地名・人名、法律用語もある。こういう状態なんで、ますます曖昧性が増幅されてしまう。

国分 言葉っていうのは時代とともに変化して当たり前なんですよ。でも絶対に必要なのはコミュニケーション力と解釈力。テレビで人気のクイズ番組を見ていると、その点が欠けている。それでいいんだ、と思っている人たちに難しい構文解析や意味の定義を訴えても空しいじゃないですか。  

――繰り返しになりますが、だから自動的に構文と意味を認識するシステムが必要になってくる。ですが、そういう中からちゃんとした仕様書を書けて、ロジックを組み立てられる人が出てくる。これが要求仕様書というものなんだよ、というモデルができれば、それを学習すればいい。だから私が提案しているプロジェクトには、どこかの段階で教育機関にも参加してもらう必要があるでしょうね。人材育成につなげないと。

国分 遠大な構想なんで、ピンとこない部分もあるけれど、やってみる価値はありそうですね。3月になったらお仲間集めを始めますか?  

――まずお仲間を集めないとね。そこから始めましょうよ。 国分 そのときは一杯飲みながらね(笑)。

 

《インタビューを終えて》  国分氏は管理工学研究所で日本語ワープロソフト「松」を開発、1985年に独立してコンピュータによる日本語解析技術の専門会社として言語工学研究所を設立した。ある意味で日本語ソフトの“雄”といっていい。

東京・飯田橋の本社を訪問したのは1月22日。インターネットで調べた住所を頼りに行くと、「あれ?」ーー発足当初の日本パーソナルコンピュータ・ソフトウェア協会(JPSA)事務局があったビルじゃないか? 

そう、同協会が社団法人となったのは1986年だが、その4年前の5月、22社で任意団体として発足していたのだった。

「というより、この部屋がJPSAの最初の事務所だったんですよ」

と国分氏。  

――そういえば表札に併記されていた『コンピュータ職人の会』ですが……。と切り出すと、小碇輝雄氏、高橋正視氏、中川隆氏など共通の知己の名前が返ってきた。小碇氏と高橋氏はオープンソフトウェア協会(OSSAJ)で意見を交換する仲だし、中川氏はIT記者会の個人会員である。 なんだ、お互い意外に近いところにいたっていうことじゃないですか。