水曜日, 10月 31, 2012

アルゴリズムは 記者より優れた記事を書けるだろうか?

毎日、何百ものニュースが、人間ではなくコンピューターによって作成される。この 自動ジャーナリズムは、なんと5年以内にピューリッツァー賞を受賞することを狙っている!?
1 2 3

PHOTO BY thomasheylen / Flickr

ナード向けガジェットサイト「Thinkgeek」では、「あっちへ行け。おまえの代わりはちょっとしたシェルスクリプトで十分なんだ」(Go away or I will replace you with a very small shell script)と書かれたTシャツが売られている。これは、誰かがやっている単調でうっとうしい仕事が、単純なソフトウェアによって(そしてより少ない費 用で、泣き言を聞かされることもなく)遂行されうるという場合のための皮肉のこもった脅しの言葉である。

しかし今回、わたしたちはキーボードを前にして本当に冷や汗をかいた。もしかすると「WIRED」編集部にも、ラッダイト運動的な誘惑がもたらされるかも しれない。

なぜなら、記者の代わりができるようになりつつあるアルゴリズムが存在するからだ。アメリカの2つの会社、シカゴの「ナラティヴ・サイエンス (Narrative Science)」とノースカロライナ州ダーラムの「オートメイテッド・インサイツ(Automated Insights)」が、生データから自動的に記事を作成するプログラムを開発したのだ。

話はクリスチャン・ハモンドから始まる。彼は、イェール大学の博士号をもつ情報技術者である。2009年、彼と同僚のラリー・バーンバウムがノースウエス タン大学のジャーナリズムスクールで、あるコースを担当したときのことだ。学生たちは、珍しいことにジャーナリストと情報技術者の混成だったが、彼らは Stats Monkeyと呼ばれるプログラムをつくり出した。

このプログラムに野球の試合のテクニカルデータシートを与えれば、数秒で画像、タイトル、キャプションから、野球の歴史についての正確な言及まで備えた完 璧なスポーツ記事をつくり出してくれる。『ニューヨーカー』誌に掲載できるほどではないけれど、アマチュアの試合の記事で地方新聞のページを埋めるには十 分すぎるほどだ。

これは野球だけのものだったが、Stats Monkeyのプレゼンテーションに居合わせたひとり、スチュアート・フランケルは、これが金脈の入り口だということを理解した。彼はハモンドとバーンバ ウムに、さらに先に進んで、あらゆるデータの集成からストーリー、それも商業化可能なものを生み出すプログラムをつくることは可能かと尋ねたのだ。3人は ナラティヴ・サイエンスを設立して、ソフトウェアを改良し、あらゆるタイプのデータに適合させるためのプログラマーと、さらに「メタ・ライター」の役割を 果たすプロのジャーナリストからなるチームを編成した。後者は、あらかじめこしらえたフレーズの枠組みとなる、無数の言語テンプレートを書く。ソフトウェ アはこれをデータで埋めて、一緒にまとめる。あとはソフトウェアに、あるタイプのフレーズに関して、別のタイプのフレーズをより多く使うように指示すれば 十分だ。これによって記事の体裁が変わる。

ナラティヴ・サイエンスは、「通信社の生彩に乏しい発表に比べて、傲岸で冷笑的な記事をつくるのもわれわれにはそれほど難しいことではない」と宣言する。 クライアントの望むままに。そして、その結果は恐ろしいほど人間が書いたもののようだ

当初、ナラティヴ・サイエンス(と、その競合相手のオートメイテッド・インサイツ)は、スポーツと金融の自動リポートの作成に焦点を合わせていた。理由は簡単だ。これらに関連して言及すべきほとんどすべての事柄は、コンピューターが凝縮させて叙述することが可能な大量の生データ(ゴールの記録、暴落した株式など)に関するものだからだ。 しかし、叙述すべきデータは無数にある。ずっと以前から、データを集めることが自身のビジネスを理解し改善するための根本であることを企業は学んでいた。残念なのは、膨大にある単調な表やグラフを意味づけすることができずに、そのなかで窒息してしまうことだ。これに対して、ソフトウェアは飽きることなくデータを読み込み、鍵となるトレンドを分析することができる。 さらに、自動文書作成のアルゴリズムは、読みやすいだけでなく、非の打ちどころなく正確なリポートを自動的に編集してくれる。これによって、集めたデータを意味づけすることによって、マネジャーはこうしたデータを理解することが可能になる。この種の自動リポート作成は、ナラティヴ・サイエンスにとってジャーナリズムよりもずっと、将来の企業向けコアビジネスとなる可能性がある。 そして、叙述すべきは数値のデータのみではない。例えば、ナラティヴ・サイエンスのソフトウェアは、ある人物に関する何百万ものツイートを読み込み、これらが賞賛であるか批判であるかを自動的に分析し(情報言語学者が「感情分析」と呼んでいるもので、イタリアでもこうしたことは行われている)、ツイッター界においてある人物がどのように語られているかについて、要を得た読みやすいリポートを生成することができる。人間のジャーナリストには到底集めることができないほどの大量のデータを基にしていることによって、自動文書作成ソフトウェアは決定的なアドヴァンテージをもっているのだ。 グルメガイドもまた廃れてしまう危険がある。ナラティヴ・サイエンスのソフトウェアの柔軟性を活用して、彼らのチームの「メタ・ライター」のひとりが、ウェブ上のレストランに関するさまざまな評判を読み込み、その鍵となる観点をかすめ取って、「アトランタでイタリア料理を食べるならどこか」といった記事をいくつも調合することができるボットをつくり出したのだ。 一方、スポーツに話を戻すと、オートメイテッド・インサイツは「Stat.us」というサイトを立ち上げた。これもまたツイッターを活用しているが、やり方は正反対だ。さまざまなソースからスポーツのデータを集めて、分析し、選別して、自動のツイッターアカウントを作成し(サッカーやバスケットなどのチームそれぞれに1つずつ)、ファンに対してひいきチームのあらゆる動向を知らせるというものだ。ファンタカルチョというゲームの、自分のチームのためにカスタマイズしたツイッターのリストを作成することさえも可能だ。実はStat.usは、これまたオートメイテッド・インサイツの、全米大学体育協会に所属するすべてのバスケットボールチームにそれぞれに1つずつ完全に自動的に生成された345のニュースサイトを集めたサイト、「Statsheet Network」から派生したものである。 では、スポーツの試合は観ないけれど、椅子に座りヘッドフォンをしてゲームで冒険をするギークには何かあるだろうか? ナラティヴ・サイエンスは、World of Warcraftのセッションに基づいたカスタマイズ記事を立ち上げようとしている。World of Warcraftの勇壮な戦いに参加して、あたかもあなたが戦列に従軍記者を伴っているかのように、その冒険についての素晴らしい記事を読むことができる(そして友人たちと共有できる)ことを想像してみてほしい。 実際、自動ジャーナリズムの短期的な目標は、わたしたちのそれぞれが出合うデータに意味づけを行うのを助けてくれる、目に見えないリポーターに付き添われているという世界である。すなわち、血液検査で、専門家にのみ解析可能な難解な数字の羅列の代わりに、健康状態を改善するために何をすべきかについての指示を備えたわかりやすく明快なリポートを受け取るとか、銀行口座の状況について明晰なアドヴァイスが豊富な記事を受け取るといった具合だ。 正真正銘のジャーナリズムの観点からすれば、自動リポートはいまのところ、データジャーナリズムのための出発点がせいぜいで、これに人間のジャーナリストが必要な分析を通さなければならない。しかし、クリスチャン・ハモンドはこのレヴェルに満足しておらず、ナラティヴ・サイエンスが知性を用いてデータを分析できるようにしたいと思っている。 理想としては、ソフトウェアがデータを読み込み、興味深い相関関係やパターンを見つけ出し、これらを比較考量し、さらには発見したことについてひとつの記事を書くようにすべきである。すでにデータから推理判断を行い結論を導き出すことができるソフトウェアが存在することを考えれば、これは時間の問題でしかない。 これは、本当に血と肉をもつジャーナリストと手帳を追い払うような状況なのだろうか? いまのところ、こうしたアルゴリズムは、企業のデータを有効活用したり、子どもたちのチームの試合について友人や親戚に知らせたり、誰も手をつけたりしないようなデータについて山のようなリポートを作成するといった、そうでもしないと人間がほとんど誰も考慮に入れないような事柄を叙述するために用いられている。 オートメイテッド・インサイツのCEOスコット・フレデリックは、「わたしたちは人間のジャーナリストから仕事を奪うことに興味はない。むしろわたしたちは、彼らが本当にしたい事柄について仕事ができるようにしたいと思っている。例えば、アメリカの42,000のすべての郡における不動産市場の最新情報を毎週作成することには、誰も関心をもっていない。しかし、わたしたちのソフトウェアならそれが可能なのだ」と述べている。 これに対して、クリスチャン・ハモンドと彼のナラティヴ・サイエンスの同僚たちは、直接競合しない理由はないと考えている。「人間は信じられないほど複雑だ。しかし、結局は彼らもまた装置なのだ。20年の間に、ナラティヴ・サイエンスが記事を作成できない分野は存在しなくなるだろう。そしてさらに15年の間に、ニュースの90%はコンピューターによって作成されるようになるだろう」。しかし、20年の間にアルゴリズムがピューリッツァー賞を受賞できるかと質問されると、ハモンドは首を縦に振らなかった。なぜなら、彼によれば、5年以内にそれは実現可能らしいからだ。 しかし、逆説的なことに、読者にとっての本当の危険は、自動ジャーナリズムが彼らの趣味を上手に反映しすぎてしまう能力にある。あなたがたの政治的見解や美的趣味に基づいてカスタマイズされたニュースを受け取ることを想像してみてほしい。検索エンジンやソーシャルネットワークにまき散らされたデータを利用して、一人ひとりの読者に合わせて記事を作成する新聞である。明らかにこれはわたしたちの頭脳を惑わせるだろう。たしかに心地のよい記事を提供してくれるが、わたしたちがあらかじめ期待しているものとは相容れない見解や評価を決して受け取ることのない、柔らかい泡の中のような世界に、わたしたちを置き去りにしてしまうからだ。結局のところ、本当の意味でわたしたちの精神を拡張していくことのできない、わたしたち自身が自動生成された鏡のような記事を読むだけになってしまうだろう。 これが恐らく、わたしたち人間の指、さらには市民一人ひとりの指を、キーボードの上に残しておくべき最大の理由である。 TEXT BY MASSIMO SANDAL TRANSLATION BY TAKESHI OTOSHI WIRED NEWS 原文(Italian) 2012年5月21日