2008年11月16日

講座 セマンティックWeb概論:ITpro:


http://itpro.nikkeibp.co.jp/article/COLUMN/20081030/318225/?ST=ep_webpluse

(1)タグ付け
(2)統計的処理(確率的アルゴリズム)
(3)自然言語処理
(4)機械的推論(機械的学習)
(5)人工知能

(1)タグによる情報の付加し解読することによってWeb上の情報を結び付けていく

ソーシャルブック マークの「Del.icio.us(デリーシャス)」や、参加型ニュースサイトの「Digg」、写真を共有するコミュニティサイト「Flickr」、参加 型百科事典サイトの「Wikipedia」などが挙げられる。

タグによる情報のグルーピングと結びつけにある。アルゴリズムやオ ントロジーが伴っていない。学習機能なども備えていない。このため、あくまで人手に頼るしかないうえ、サイトをまたがる利用には不向き。

(2)統計的処理:グーグルは過去の検索結果における登場頻度に従って検索結果を調整している。こうした統計的処理は大量の情報を処理する際には非常に有益だ。言語の違いに左右されず、良好な検索結果を得られるというメリットがある。

 これは話題になっているWebサイトを検索する場合には有効だが、特定の情報を探す場合にはうまく機能しないことがある。例えば「アクセス数は少ないが内容はユーザーの求めているものに合致している」といったタイプの情報だ。

 統計的処理はコンテンツ自体の意味を理解して検索をしている訳ではないので、セマンティックWebの考え方からは遠い。ただ、統計的処理と意味的 な処理を組み合わせることで相応の結果を期待できる。統計的処理が、セマンティックWebの時代に突入しても重要

(3)自然言語処理(NLP:Natural Language Process):Webページやデータ内に書かれた言葉をコンピュータで解読していく自然言語処理は幅広く利用されている。検索エンジンで特に自然言語 処理に力を入れているのが、前出のパワーセットやHakiaなどである。自然言語処理のメリットを生かして、「意味のある」検索結果を提示することが狙い だ。例えば、Hakiaの場合、検索ボックスに「What do you think about Google?」と入力すると、「I think what Google is ・・・」といった文脈に沿った結果を導きだすことができる。

(4)機械的推論(機械的学習):「Twine」というWebサイトがある。言ってみればWeb上のノートアプリケーションというべきものである。 ユーザー登録すると自分専用のダッシュボードのようなホームページが与えられる。ここに自分の興味のあるコンテンツを加えていくと、自動的にユーザーと ユーザーの興味分野を学習する。ユーザーが新しいデータを入力すると、Twineはそれを解釈して、「人名」や「地名」などのタグを付ける。Twineは 先に述べたようなトップダウン的なやり方でタグを付けるのである。

 このTwineは、セマンティックWebの実アプリケーションの典型と言うべきものである。またTwineはユーザー生成のデータだけに作成対象 を依存しているわけではない。Wikipediaを参照しながら機械的にデータを読み込ませ、新しい概念を学ばせる工夫もしている。

 同社CEOであるノバ・スピバック氏によれば、Twineのプラットフォームには、(1)タグ付け、(2)統計的処理、(4)機械的推論がミック スして使っており、まもなく(3)自然言語処理も組み入れる予定である。これまでは非公開ベータ版であったが、2008年10月21日にVer 1.0を公開した。今後ユーザー数やアクセス数が増えれば、ますます学習機能の精度が高まっていくことになるとしている。

(5)人工知能(AI:Artifical Intelligence):かつて「エキスパートシステム」の開発に向けて盛んに研究された技術分野だ。人間と同じように言葉を理解し、考えるコン ピュータを作る。このような究極の目標に少しでも近づけていくこのテーマは、ブームが過ぎ去った後も継続的に研究が進められている。ただし、現在でも前途 多難といわざるを得ない。米サイコープが、人工知能アプローチをとっており、「ナレッジベース」を蓄積することで、人間に近い形で推論できるアプリケー ションを作ろうとしている。

0 コメント: