20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見

2009年8月27日
第114回ku‐librarians勉強会@京都大学附属図書館




   Wikipediaをいかに使いこなすか?
   ~知識抽出、情報ナビゲーション、
   ~知識抽出 情報ナビゲ ション
          そしてトピック発見
                  見

         東京大学情報基盤センター
         東京大学情報基盤センタ
         学術情報研究部門 助教
      (兼 株式会社リッテル 上席研究員)
            清田 陽司
            清
関心分野
• 自然言語処理技術を応用した情報検索システム
 – 対話的ヘルプシステム「ダイアログナビ」
   対話的 ルプシステム ダイア グナビ」
  • WindowsやOffice利用者向けの質問応答サービス
• 情報検索プロセスの解明
 – 対話(聞き返し)による情報探しニーズの明確化
 – 情報の組織化
  • 聞き返しをするには何らかの知識構造が必要
 – 情報検索手段の変遷
  • 人に聞く 図書館 データベース サーチエンジン 掲示板
    人に聞く、図書館、データベース、サーチエンジン、掲示板…
  図書館レファレンスサービスの課題と共通
• レファレンス支援システムの研究
 – タクソノミーとフォークソノミーの統合
 – 実用システムの研究開発
    リッテルナビゲーターとして実用化               2
経緯
• もともと京大メディアセンターのヘルプシステム
  を手掛かりに博士の研究を始めた (     年)
                   (2000年)
 – 京大附属図書館レファレンスシステムもあった
 – 利用できるデータはNDLSHだけだった
• その後 MSとの共同研究でダイアログナビを
  その後、MSとの共同研究でダイアログナビを
  開発し、博士論文を提出
• 「次に何を研究しようか」と考えていたときに東
  大総合図書館内の研究室に赴任 (2004年)
 – 図書館の豊富な情報リソースをうまく使えないか?
 – Wiki di のコンテンツが本格的に充実してきた
   Wikipediaのコンテンツが本格的に充実してきた
ダイアログナビ(Dialog Navigator)
       (     g     g    )




 • マイクロソフト株式会社との共同研究
 • 2002年4月から運用開始
    • いまは稼働していませんが          4
5
6
7
8
9
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
エラーが発生した       いうエラーが発生する
              • Wi d    XPでアプリケ シ ンを
                Windows XPでアプリケーションを
              起動したときに、エラーが発生する
              • インターネットにダイアルアップで接
              続しようとしたときに、…というエラー
              続     うと たとき     と う
              が発生する
              • 印刷中にエラーが発生して印刷で
              きない
              • …………………………..




                                   10
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
エラーが発生した       いうエラーが発生する
              • Wi d    XPでアプリケ シ ンを
                Windows XPでアプリケーションを
              起動したときに、エラーが発生する
              • インターネットにダイアルアップで接
              続しようとしたときに、…というエラー
              続     うと たとき     と う
              が発生する
              • 印刷中にエラーが発生して印刷で
              きない
              • …………………………..




                                   11
エキスパートやコールセンター
対話的に具体性のギャップを解消

 Windowsで    エラーが発生したのはい
 エラーが発生した    つですか?



             お使いのWindowsは何で
             すか?



             どんなエラーメッセージが
             出ましたか?




                              12
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                13
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                14
こんなときどうしますか?
• Winnyをテーマにしてレポートを書く
 – 知的財産(著作権)に関する法律の観点から
 – P2Pソフトウェアの技術について
 – 匿名掲 板独特 文化
   匿名掲示板独特の文化
 – 表現の自由との関連
• 「日本のアニメ」を研究したい
 – アニメ産業のあり方 (製作会社、分業制、…)
   ア メ産業のあり方
 – アニメ製作技術 (セル画、CG、…)
 – アニメの主題 キャラクターの描き方・・・ユニ
   アニメの主題、キャラクターの描き方・・・ユニ
   セックス…
 – アニメの国際比較
   アニメの国際比較…
                            15
こんなときお役にたちます
リッテルナビゲ タ
リッテルナビゲーター
=情報探しのヒント検索システム
(1) 「
    「切り口」探し
         探
(2) 情報の関連づけ
  情報そのものの発見、情報の関係との発見




                        16
リッテルナビゲーターとは?
 リッテルナビゲ タ とは?
「情報探索のヒント」検索システム
=パスファインダ 自動生成システム
=パスファインダー自動生成システム
• さまざまな情報リソースの統合検索
 – 件名標目、書架分類、レファレンスブック、
   Webサイト、オンライン百科事典、...
• 曖昧な質問(キーワード)から具体的な探
  し方へのナビゲ ション
  し方へのナビゲーション
 – Wikipediaを用いた探索テーマの自動導出

                             17
リッテルナビゲーターの主な機能
リ テルナビゲ タ の主な機能
• テーマグラフの自動生成
 – 分野の自動的な導出
• 分野からの情報探し
 – 日本十進分類法(NDC)による資料検索
   →書架の特定、参考図書調べ
 – インタ ネ ト学術情報インデ クスの利用
   インターネット学術情報インデックスの利用
• 関連キーワード探し
• 他のサーチエンジンとのリンク
 – OPAC JapanKnowledge Google Scholarなど
   OPAC、JapanKnowledge、Google Scholarなど
                                          18
19
20
セキュリティへの脅威
              (情報漏洩など)
 著作権法改正の
議論に与えた影響は
議論に与えた影響は?
  被害額は?




         ソフトウェアの開発モデ
         ルとしてのフリーウェア
         ルとしてのフリ ウェア
                          21
P2Pネットワーク
          P2Pネットワ ク
          技術の観点から
            特異な存在




   ソフトウェア=創作物         匿名性により普及
創作物を公開することで逮捕され
創作物を 開する と 逮捕され       匿名掲示板独自の
 るのは表現の自由に反する?           文化   22
23
一大産業としての
              ア
              アニメ


芸術としてのアニメ              アニメ製作技術の
 もはやサブカル                  高度化
チャーではない?




                             24
25
26
•著作権法百年史
•著作権法事典
•著作権法ハンドブック
 著作権法  ドブ ク
•表現の自由・著作権・名誉毀損
やさしく引ける判例総覧
•著作権法のノウハウ
•…




            27
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見
利用実績
• 導
  導入先
  東
  東京大学、東京電機大学、同志社大学、東邦大
       、東  機   、     、東
  学、亜細亜大学、千葉大学、神奈川工科大学
※2009年5月より国立国会図書館 リサ チ ナビ
※2009年5月より国立国会図書館「リサーチ・ナビ
  」にコンポーネントとして導入
• マーケティング用途利用
  マ ケティング用途利用
 – ベクトル空間モデルによる関連KW抽出とWikipedia
   カテ リの組み合わせでSEMワ ド候補を導出
   カテゴリの組み合わせでSEMワード候補を導出
 – 分野別辞書の作成
  • テレビ番組、ドラマ、タレント、映画、お菓子、…
                              32
ワ ド抽出例
        ワード抽出例
おでん
 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん…
涼宮ハルヒの憂鬱
涼宮 ルヒの憂鬱
 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊
  少年エース、ねこマン、…
 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ
 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ
  タル・パニック!、…
 独立UHF放送局→らき☆すた NHKにようこそ! 魔
 独立UHF放送局→らき☆すた、NHKにようこそ!、魔
  法少女リリカルなのはA‘s、ひぐらしのなく頃に、少
  年陰陽師、ゼロの使い魔、…
  年陰陽師 ゼロの使い魔
                          33
もくじ
1.   Littel Navigatorとは?
2.
2    図書館の世界とW bの世界
     図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     Wiki di を使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               34
情報検索の手段の変遷
• 20世紀以前
 – 人に聞く
 – 相談窓口
   (無料: 図書館や公共機関, 有料: コンサルタントなど)
 – 本屋に行く
 – 図書館で調べる
 – Webディレクトリ、個人ブックマーク、商用DB…
      デ  ク   個人ブ ク  ク 商
• 21世紀: 上に加えて
 – GoogleなどのWebサーチエンジンの利用
 – 掲示板 人力検索エンジン ソーシャルブック
   掲示板、人力検索エンジン、ソ シャルブック
   マーク…                            35
情報探しのニーズ
• Web検索で探せる質問=事実を問う質問
 – 関東大震災はいつ発生しましたか?
 – XXXってどんな病気?
• 本当に探し手が知りたいこと
 – 大学の学生「関東大震災についてのレポートを書か
   大学の学生「関東大震災についてのレポ トを書か
   なきゃいけなんだけど、いったいどんな資料から調べ
         」
   たらいいの?」
 – 難病の患者「この病気について最先端の治療を行っ
   ている病院を探す方法は?」
      情報探しのテーマが曖昧な場合が多い
    →テ マの推薦(レコメンデ ション)が必要!
    →テーマの推薦(レコメンデーション)が必要!
 36
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして
   欲しい
 – これができないと結局使ってもらえない
• 組織化
 – 「これを見た人はこんな情報も見ています」で
   は不十分!
 – 分類ごとにお薦めすべき情報資源には定番が
   存在
• 信頼性
 – 「ネットでググる」だけでは不十分!
 – 信頼できる情報資源が必要

 37   Web情報の組織化の現状は?
Web情報の組織化の取り組み
• サーチエンジンの性能向上
       ジ
 – PageRank ( eb の民主主義)
    age a (Web上の民主主義)
 – 自然言語処理分野の成果の活用
• 多数の 般利用者による情報組織化
  多数の一般利用者による情報組織化
 – ブログ: トラックバック
 – 掲示板: スレッド、まとめサイト
 – ソーシャルブックマーク: 一般利用者によるタグ
   ソ シャルブックマ ク: 般利用者によるタグ
   (キーワード)の付与
 – Wikipedia: 百科事典の共同編纂
                             38
情報検索におけるロングテール(?)
• 難病の治療法
 – 10万人に1人という難病にかかった。かかりつけの医者
   はXという治療法を勧めたが、深刻な副作用を伴うらしい。
   一方、たまたまニュースで海外で普及しつつある治療法Y
     方 たまたまニ  スで海外で普及しつつある治療法Y
   を知ったが、それを実践できる医者を知らない。さてどち
   らを選択すべきか?
• F社の期限切れ原料使用問題の背景
 – 過去の同様の事件との共通点は?
 – では他社の製品は安全なのか?
 – Web掲示板上での主流意見はあてになるのか?
• A市における過去100年間の犯罪発生率

      Webの利用で答えられるか?         39
Webの情報検索手段としての性質
利点
• とんでもなく広いカバレ ジ
  とんでもなく広いカバレッジ
• 多様性(マスメディアへのアンチテーゼ)
     (              )
欠点
• 価値・信頼性の判断基準を提供してくれない
 – 利用者自身が知識体系をもっている必要がある
• フロー情報中心
     情報中心
 – ストック情報は残りにくい
 – 注目されすぎた情報は突如姿を消してしまう
• ブラウジング指向の組織化
                          40
Web上での組織化の限界
ブラウジング指向に偏りがち
ブ   ジ グ      が
• ソーシャルブックマークやランキングを機能さ
  ソ シャルブックマ クやランキングを機能さ
  せているフィードバックは、ブラウジングを便
  利にしたい情報消費者のものが中心
• 偏った探索になりがち
 – 検証を経ていない二次情報への頼りすぎ
• 人類が積み重ねてきたストック情報とリンクさ
  れていない(浅い組織化)
                        41
Webの可能性
             可能性
• 探索手段としての間口の広さ
 – どんなキーワードを入力してもとりあえず何かヒット
          ド     も    ず
 – 情報探索の足がかりとしては最適
• 注目されていない情報も存在を許される
 – マスメディアにはない最大の特色
 – どうやって価値を判断するかが問題
• Wikipediaの可能性
 – 膨大な項目数(日本語: 30万項目以上)
 – 明確な目的: 「
    確な 的 「Web上に百科事典を構築する」
                 科事典を構築する
 – 項目の組織化への取り組み(Wikipediaカテゴリ)
   他のWebサイトにはない大きな特色          42
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして    Web
   欲しい
 – これができないと結局使ってもらえない
                            Wikipedia
• 組織化
 – 「これを見た人はこんな情報も見ています」で
   は不十分!
 – 分類ごとにお薦めすべき情報資源には定番が     図書館
   存在                       システム
• 信頼性
 – 「ネットでググる」だけでは不十分!
 – 信頼できる情報資源が必要
            渡          情
 Wikipediaを橋渡しとして、信頼できる情報
 資源をお薦めできないか?
 43
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik‐IEの紹介
     –   Hadoop, MapReduceとは?
         Hadoop MapReduceとは?
5. まとめ

                                44
オントロジーとフォークソノミー
オントロジー
     ジ               フォークソノミー
• トップダウン的な分類         • ボトムアップ的な分類
• ひとつの上位概念           • 複数の上位概念
                            再生可能 半導体
       電気化学           電池    エネルギー 素子

 電離層    電池    磁気化学


燃料電池   太陽電池    蓄電池   燃料電池   太陽電池   トランジスタ



図書館的な分類体系            Web的な分類体系
                                       45
Wikipedia
                 p
                   価格
• インターネット上で共       価格(かかく)とは、有形・無形の各種の商品
                   (サービスを含む)の取引に際して提示される金
  同編集されている多        額を言う。基本的には需要と供給のバランスに
  言語百科事典           よって決定される。一般には、値段(ねだん)とも
                   呼ばれる。
• 各記事にはカテゴリ        …
                   カテゴリ: [マーケティング][経済学][市場]
  が付与されている
 – フォークソノミーの特
   フォ クソノミ の特              社会
   徴を有する            社会科学
                            経済
 – カテゴリにもカテゴリを
   付与できる(ゆるやか    労働               産業
   な階層構造)
               ビジネススキル            商業
 – 複数の上位概念を与
   えることができる(多重      経営学        流通
   継承)             マーケティング 経済学
                     ケティング        市場
                                         46
                             価格
オントロジー        社会
 型構造
       社会科学   経済


  労働                     産業

ビジネススキル
ビジネ  キ                   商業

       経営学          流通

    マーケティング
          グ   経済学        市場

フォ クソノミ 型
フォークソノミー型
   構造         価格              47
提案: Wikipediaと図書館分類体系の
           対応づけ
図書館の分類体系をWiki di で拡張してみよう
図書館の分類体系をWikipediaで拡張してみよう!
• Wikipedia
 – Webの汎用的な情報資源としては最も組織化されてい
   る(Wikipediaカテゴリ)
 – Web上の他の情報資源との親和性をもつ
• 図書館分類体系(書架分類法、件名標目表)
         (           )
 – 人類が営々と積み重ねてきた知識体系
 – 価値判断に必要な情報資源への有力なポインタ
両者を組み合わせて利用することによって、キー
 ワ ドから探索テ
 ワードから探索テーマ(=件名)を自動導出する
           ( 件名)を自動導出する
→ 導出された件名に関連する情報資源を提示 48
社会科学(300)                  自然科学(400)    技術(500)

                     「地震防災の事典」(岡(             「日本被害地震総覧」
             経済(330) 田恒男ほか, 2000年)
                       社会(360)              地球科学(450) 建築学(520)
                                               (宇佐美龍夫, 2003年)
             経済史(332)   社会福祉(369)            地震学(453) 建築構造(524)
「経済学事典」(日本
経済新聞社, 1996年)
経済史-日本                    災害          地震誌(453.2)      地震
 (332.1)
経済史-日本                         地震災害           地震予知         耐震建築
-平成時代
 (332.107)                          図書館オ
                                    図書館オントロジー   ジ
                                     (NDC, BSH)
                                      Wikipedia
                                          p
              経済史         災害
                                     震災がその後の
              日本の       災害と防災の        防災対策に           地震
              経済史         歴史          与えた影響

   平成時代                              地震の歴史         震災を引き起こした
                                                   地震(1995年兵庫県
  震災が日本経済に                                           南部地震) 49
    与えた影響                 阪神・淡路大震災
情報探索の
     スタ ト地点
     スタート地点


         Web情報資源(サーチエンジン)
            情報資        ジ
              フォークソノミー

 図書館  Wikipedia                       情
 分類体系                                 報の
 •NDC                                   専
                  対応づけ→                 門
 •BSH                                   性
                  深い情報探
多様な情報資源                          ・
                    索へ           信
•入門書                              頼
•レファレンスブック
 レフ レンスブ ク                        性
•各種データベース
•学術雑誌論文
 学術雑誌論文
•過去の文献・資料                   50
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               51
最新の状況
• 日本語版が60万項目を超えた (7/8)
   本 版が     を超 た
 – XMLでダウンロード可能 (1.1Bytes)
       ダウン   可能 (    y )
• 英語版は300万項目を超えた (8/17)
 –9 G
  9.4GBytes, bzip2圧縮
             b i 2圧縮




                             52
Wikipediaで何ができる?(1)
• コーパスとしての利用
    パ
 – 定義文の抽出 → 言い換え
   定義文 抽出 → 言 換え
  • コーパスとは、電子化された自然言語の文章から成る
    巨大なテキストデータである。
 – 翻訳用例の獲得 (言語間リンク)
• 文書集合としての利用
 – 単語(Wikipediaエントリ)間の類似度計算



                              53
Wikipediaで何ができる?(2)
• 表記揺れ辞書としての利用
 – リダイレクト
   •   ソフトウエア工学 → ソフトウェア工学
                 → ソフトウェア工学
   •   モンティ パイソンズ    → モンティ パイソン
   •   線形代数学 → 線型代数学
   •   国道17号線 → 国道17号
   •   業務上過失致傷罪 → 業務上過失致死傷罪
 – 括弧表現
   • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である
     放散虫の一群である。
   • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通
     称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST 
     CORPORATION)は、日本最大手の電気通信事業者である。

                                                    54
Wikipediaで何ができる?(3)
• シソーラスとしての利用
 – Wikipediaカテゴリ
       p    カテ リ
• 固有表現辞書としての利用
 – 地名 人名 組織名
   地名、人名、組織名
 – 商品名
   • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ
     キー、チョコエッグ、…
   • 自動車: カローラ、エスティマ、マーチ、ベンツ、…
   • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、…

                                 55
Wikipediaの特徴
•   多数の参加者による編集
    多数 参加者   る編集
•   半定型デ タ
    半定型データ
•   外部情報リソースとの連携
•   項目の組織化




                       56
(1)多数の参加者による編集
• 基本方針 「誰 も編集 きる
  基本方針は「誰でも編集できる」
• 秩序維持の仕組みが存在する
 – ガイドライン (5つの原則)
 – ペ ジ毎のノ ト (議論 合意形成の場)
   ページ毎のノート (議論、合意形成の場)
 – 管理者によるコントロール
  •   保護 (編集合戦への対応)
  •   削除
  •   投稿ブロック
  •   管理者の選任・解任

                          57
(2)半定型データ
• ウ キプ ジ ク
  ウィキプロジェクト
 • 大学、スポーツチーム、芸能人、…
• テンプレート
 • 大学、サッカー選手、映画、




                      58
(3)外部情報リソースとの連携
• 外部
  外部Webサイトへのリンク
 – 緯度・経度 (Google Mapsなどへのリンク)
   緯度 経度 (   g     pな    リンク)
• 参考文献
 – ISBN (Amazon, OPACなどへのリンク)
    S (          O Cなど のリンク)




                                59
(4)項目の組織化
               価格
               価格(かかく)とは、有形・無形の各種の商品
• カテゴリシステム
    ゴ          (サービスを含む)の取引に際して提示される金
               額を言う。基本的には需要と供給のバランスに
 – フォークソノミーの   よって決定される。一般には、値段(ねだん)とも
               呼ばれる。
               呼ばれる
   特徴を有する      …
 – カテゴリにもカテゴ   カテゴリ: [マーケティング][経済学][市場]
   リを付与できる(ゆ              社会
   るやかな階層構造)      社会科学
                          経済
 – 複数の上位概念を
   複数の 位概念を
   与えることができる   労働                   産業
   (多重継承)    ビジネススキル                商業
                 経営学           流通
               マ ケティング
               マーケティング   経済学        市場
                                         60
                          価格
既存の情報リソースとの比較
タクソノミーとフォークソノミーの中間的性格
タクソノミ とフ  クソノミ の中間的性格
• 構造
 – 下位層はフォークソノミー的 (複数の上位概念)
 – 上位層はタクソノミー的(単一の上位概念)
• 信頼性
 – 既存のシソーラスよりはいい加減
   既存のシソ ラスよりはいい加減
 – フォークソノミーよりは信頼できる?
• カバレッジ
 – フォークソノミーほどではないが、多様な概念をカ
   バ している
   バーしている
                             61
情報の価値評価
信頼性 あるカテゴリ の重要な語彙を網羅性良く含む
    あるカテゴリーの重要な語彙を網羅性良く含む

意外性 複数のカテゴリ の語彙を併せ 含むか
    複数のカテゴリーの語彙を併せて含むか

意外性の程度 複数のカテゴリーの距離がどのくらい離れてい
意 性 程度 複数   ゴ    離がど く  離れ
るか
 従来は遠いと思われていた概念たちの架け橋

有用性 個人の目的によ て異なる 個々人の過去の興味を示
    個人の目的によって異なる。個々人の過去の興味を示
す用語リストに適度に関連することが大切:機械学習による適応

                            62
意外性の少ない情報
     Wikipediaのカテゴリー階層構造の場合の例

あるカテゴリとその直系の子孫の間では新規性、意
外性はない。

                    イギリスの企業

イギリスの鉄道事業


                        ユーロトンネル株
                        式会社




                                   63
カテゴリ関係から得られた結果が
                多くの人々にとって既知の例
                多くの人々にと て既知の例
                                                      共通項目
  カテゴリ1        階層     カテゴリ2        階層 子孫関係    項目
                                                       数
                                             ユーロト
category:イギリ      category:イギリス
                5                   6   あり   ンネル会
                                              ネ 会             1
スの企業              の鉄道事業者
                                             社
                        g y 伝統医
                    category:伝統医             漢方医
         医療
category:医療
  t             2                   3   あり                    1
                    学                        学
category:アメリ                                 卒業
                    category:恋愛映
                        g y
カ合衆国の映          6                   4   なし   (1967年          55
                    画
画作品                                          の映画)
                  Category:アメリカ
category:アメリ                                 ビーナ
                                             ビ ナ
                  合衆国のオリン
カ合衆国のオ          6                   7   なし   ス・ウィリ           55
                  ピック金メダリス
リンピック選手                                      アムズ
                  ト
category:日本       category:東京都               木村拓
                6                   5   なし              2088
                                                        64
の俳優               出身の人物                      哉
意外性のある知識情報
    Wikipediaのカテゴリー階層構造の場合の例

離れたカテゴリー間の面白い架け橋は、情報アクセス
グラフ間の構造を利用して評価、選別できる。

                       カ ボンナノチュ ブ
                       カーボンナノチューブ


   宇宙




                        軌道エレベータ



                                  65
意外性のあるカテゴリ関係をもつ項目の例
                                                         共通項目
   カテゴリ1         階層      カテゴリ2         階層 子孫関係    項目
                                                          数
                    category:オリンピック
category:日本の内
                  5 射撃競技日本代表選           8   なし   麻生太郎          1
閣総理大臣
                    手
category:弁当       4 category:キャラクター     5   なし   キャラ弁          1
                    category:アメリカ合衆              テカムセ
category:呪術       4                     6   なし                 1
                    国の大統領                        の呪い
                    category:オリンピック
category:日本の経
                  5 サッカー日本代表選           8   なし   堀江忠男          1
済学者
                    手
category:コンピュー                                   福田ウイ
                  5 category:福田康夫       4   なし                 1
タウイルス                                            ルス
                                                 カナビス・
category:祭        3 category:大麻         3   なし                 1
                                                 カップ
category:イリノイ州
                      category:グラミー賞             バラク・オ
選出のアメリカ合衆         7                     4   なし                 1
                      受賞者                        バマ       66
国上院議員
新規性、有用性のある知識はどこにいるか
     iki di の構造を機械学習
    Wikipediaの構造を機械学習
下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い
   Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から
   教師あり機械学習し、情報の評価、選別、発見、推奨に活用




                          カーボンナノチューブ
                          このカテゴリーの
                          記事に現れる語
       宇宙                 彙

このカテゴリーの
記事に現れる語
彙
                       軌道エレベータ         67
用語の対訳取得
Wikipediaの対訳の利用(システム開発中)
Web上の多言語資源などから専門用語対訳
辞書抽出
  現在も進めており、日中、日英での成果あり
  現在も進めており 日中 日英での成果あり
多言語化により言語コミュニティのごとのモノ
の見方の相違を調べることができる
言語依存性の少ないシステム
  言語依存性の高いソフトの使用は最小限にし、多くの
  言語への拡張性を狙う。
  言語への拡張性を狙う
                           68
Wikipediaの言語間格差の解消
      参考文献が充実                     数学関係が充実


    英語のWikipedia 280万項目
    英語     p         項目
                                  日本語のWikipedia 50万項目
     ローカルな文
     化などで必ず                       ローカルな文
                                  ロ カルな文       Wikipe
     しも対訳され                対訳の    化などで必ず       diaを補
     る必要はない                ある項目   しも対訳され       完する
     項目           技術用語な           る必要はない
                  ど対訳される          項目
                  べき項目                        選別
                           用語を翻訳し、
                           用語を翻訳し
                           対応する日本      Web
                           語Webページ     ページ
 この境界線を見つける機械学習手法          を検索
自然言語処理(固有名、地域名などの処
       理を利用)                                       69
Wikipediaのデータを活用するには
• 全デ タ
  全データはXMLでダウンロード可能
           ダウ   ド 能
• ただし取り扱いは意外と面倒
  – データが巨大
  – Wiki記法のparsing
     iki記法の    i
  – リンク切れの扱い


Wikipediaの軽量解析ツ ルを開発しています
Wikipediaの軽量解析ツールを開発しています
 Wik‐IE: http://wik‐ie.sourceforge.jp/
                                         70
Hadoopとは何か?
A large‐scale distributed batch processing 
  infrastracture
• Large‐scale = Web規模のデータを扱える
  • 1TB t (1兆バイト) 1PB t (1000兆バイト)
    1TBytes(1兆バイト)~1PBytes(1000兆バイト)
• Distributed = 分散型システム
• Batch = バッチ処理専用 (高速な処理)
• I f t t          インフラとしてのシステム
  Infrastructure = インフラとしてのシステム
  • つまり意識せずに使える
Hadoopのアプローチ
• 並列処理をするためにたくさんのコンピュータ
  をつないで、大量の情報を効率的に処理
• コストの安いコンピュータをたくさん結びつけ
  てひとつのクラスタを構成する
 • 1000個のCPUを積んだ1台のマシン(現実には存
   在しないが)のコストは、1個のCPUを積んだ1000
   在しな が      トは 個   を積んだ
   台のマシンより高くつく
スケールアップとスケールアウト
1台の計算機
の性能



                    性能を上げようとすると
                     コストが飛躍的に
                      増大してしまう



         この領域をうまく
           使いたい




                       コスト
既存技術との比較
• H d
  Hadoop
  • 単純化されたプログラミングモデル
    • ユーザは簡単に分散システムの実装とテストが可能
  • 与えられたデータとタスクを各マシンに効率的・自動
    的に分散
    • 各マシンのCPUコアをフルに活用できる
• 既存技術の例: Condor 
  • データの分散機能がない
  • 高価なストレージ(SAN)が必要
  • 各マシン間での同期システム(
    各マシン間での同期システム(MPIなど)を実装する必
                     など)を実装する必
    要
データ分散
•h d   のクラスタ
 hadoopのクラスタ
 • データを全ノードに分散
• Hadoop分散ファイルシステム(HDFS)
 • 大きなデータファイルは 管理された複数ノー
   大きなデ タファイルは、管理された複数ノ
   ドに分散
 • 分散したファイルは、複数マシン間で複製
    • マシン故障でもデータ損失がない
    • 故障に応じて データを再複製
      故障に応じて、デ タを再複製
    • 一つの名前空間で管理し、アクセス可能
MapReduce:
   各プロセスの自立性を高める
• 各プ
  各プロセスの個別化で信頼性向上
            個    信頼性向
• 「MapReduce」プログラムモデルで記述
• MapReduce
 • Mappers:分割するタスク
 • Reducers:集約するタスク
• ノード間通信の制限で、データ転送を管理
 • 分散システムの信頼性を向上
k1 v1   k2 v2   k3 v3    k4 v4   k5 v5    k6 v6




 map                 map                   map                map


a 1    b 2        c 3     c 6           a 5   c 2           b 7   c 8

      Shuffle and Sort: aggregate values by keys
             a    1 5             b     2 7           c     2 3 6 8




        reduce              reduce                 reduce


          r1 s1                 r2 s2               r3 s3
k1 v1   k2 v2   k3 v3     k4 v4   k5 v5      k6 v6




 map                    map                     map                  map


a 1    b 2            c 3     c 6            a 5   c 2             b 7     c 8

 combine               combine                combine               combine



a 1    b 2                  c 9              a 5   c 2             b 7     c 8

partitioner            partitioner           partitioner            partitioner

 Shuffle and Sort: aggregate values by keys
                a     1 5              b     2 7             c     2 9 8




         reduc                    reduc                 reduc
           e                        e                     e

              r1 s1                  r2 s2                 r3 s3
MapReduceの応用タスク
• 検索
  検索インデックスの作成
      デ    作成
• キーワードのカウント
  キ ワ ドのカウント
• ログの時系列解析
 – 例) あるキーワードで探した人がどんな資料にあ
   たっているのか?
• レコメンデーション(いわゆる協調フィルタリン
  グ)
• グラフ探索
• 機械学習                       79
スケーラビリティ
• Hadoopの利点の1つは、単調なスケーラビリティ
    d   の利点の は 単調なスケ ラビリテ
  カーブ
• Hadoopプログラム
        プ グ
 • 小規模データは不向き→他の分散システムで実行さ
   せた方が良い場合がある
    た方が良 場合がある
• 他の分散システム
 • 大規模(10~1000台のマシンで実行)データでは、書
   き換えが必要
• 非常にフラットなスケーラビリティカーブ
 • マシン数と比例したパフォーマンス増加
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
     –   意外性のある情報の発見
     –   言語間格差の抽出
     –   軽量解析ツールWik-IEの紹介
     –   Hadoop,
         Hadoop MapReduceとは?
5. まとめ
                               81
今後 展開
        今後の展開
他言語版の開発
• 英語版 開発中 LCSHが検索可能
  英語版の開発中:     が検索 能
分野別シソ ラスの活用
分野別シソーラスの活用
• 医学分野: MeSHなどとの連携
情報リテラシー教育の題材として
• 大学の教育現場
 – シラバスとの連携
• 企業研修、生涯学習など
   業 修   学 など
 – 検索の多様な側面を体験的に学べる
   検索の多様な側面を体験的に学 る
                       82
おわりに
• Wikipediaと図書館分類体系の統合利用によって、
  パスファインダ に近い「情報探索のヒント提示」を
  パスファインダーに近い「情報探索のヒント提示」を
  可能とした
   – 情報探索の多様な「切り口」の提示
   – 信頼性のある情報資源への誘導
• 「 書館
  「図書館かWebか」という二項対立ではなく、両者
                        な  者
  の役割を踏まえた見方が大事
   – 図書館: 信頼性、組織化
   – Web: どんなキーワードからでも探せる
          どんなキ ワ ドからでも探せる


                            83
1 de 83

Recomendados

マイニング探検会#09 情報レコメンデーションとは por
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはYoji Kiyota
636 vistas19 diapositivas
050830 openforum por
050830 openforum050830 openforum
050830 openforumIkki Ohmukai
521 vistas5 diapositivas
20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏 por
20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏
20090919 ku-librarians勉強会 #115 : 収書業務の舞台裏kulibrarians
600 vistas40 diapositivas
20120713 ku-librarians勉強会#151:書誌データベースの漢字処理 por
20120713 ku-librarians勉強会#151:書誌データベースの漢字処理20120713 ku-librarians勉強会#151:書誌データベースの漢字処理
20120713 ku-librarians勉強会#151:書誌データベースの漢字処理kulibrarians
1.2K vistas30 diapositivas
20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザイン por
20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザイン20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザイン
20131025 ku librarians勉強会#169:図書館データを研究推進にもっと利活用するための情報デザインkulibrarians
1.8K vistas63 diapositivas
20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥) por
20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥)20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥)
20130118 ku-librarians勉強会#157:新人企画その1「日本史と数学の資料たち」(奥)kulibrarians
1.3K vistas31 diapositivas

Más contenido relacionado

Similar a 20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見

リサーチ・ナビ検索システムの技術 por
リサーチ・ナビ検索システムの技術リサーチ・ナビ検索システムの技術
リサーチ・ナビ検索システムの技術Yoji Kiyota
2K vistas30 diapositivas
マイニング探検会#04 por
マイニング探検会#04マイニング探検会#04
マイニング探検会#04Yoji Kiyota
448 vistas12 diapositivas
Opensource and Value creation by community por
Opensource and Value  creation by community Opensource and Value  creation by community
Opensource and Value creation by community Hiro Yoshioka
583 vistas48 diapositivas
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011 por
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011Hiro Yoshioka
1.6K vistas54 diapositivas
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日 por
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日Yoji Kiyota
875 vistas29 diapositivas
[18-A-1] ハッカー中心の企業文化を日本で根付かせる por
[18-A-1] ハッカー中心の企業文化を日本で根付かせる[18-A-1] ハッカー中心の企業文化を日本で根付かせる
[18-A-1] ハッカー中心の企業文化を日本で根付かせるHiro Yoshioka
9.7K vistas49 diapositivas

Similar a 20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見(20)

リサーチ・ナビ検索システムの技術 por Yoji Kiyota
リサーチ・ナビ検索システムの技術リサーチ・ナビ検索システムの技術
リサーチ・ナビ検索システムの技術
Yoji Kiyota2K vistas
マイニング探検会#04 por Yoji Kiyota
マイニング探検会#04マイニング探検会#04
マイニング探検会#04
Yoji Kiyota448 vistas
Opensource and Value creation by community por Hiro Yoshioka
Opensource and Value  creation by community Opensource and Value  creation by community
Opensource and Value creation by community
Hiro Yoshioka583 vistas
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011 por Hiro Yoshioka
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011
ハッカー中心の企業文化を日本で根付かせるには。TechLION vol.5 12/14/2011
Hiro Yoshioka1.6K vistas
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日 por Yoji Kiyota
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
Yoji Kiyota875 vistas
[18-A-1] ハッカー中心の企業文化を日本で根付かせる por Hiro Yoshioka
[18-A-1] ハッカー中心の企業文化を日本で根付かせる[18-A-1] ハッカー中心の企業文化を日本で根付かせる
[18-A-1] ハッカー中心の企業文化を日本で根付かせる
Hiro Yoshioka9.7K vistas
Building Hacker Centric Culture in Japan por Hiro Yoshioka
Building Hacker Centric Culture in JapanBuilding Hacker Centric Culture in Japan
Building Hacker Centric Culture in Japan
Hiro Yoshioka3.2K vistas
Hacker centric culture @devlove 110423 por Hiro Yoshioka
Hacker centric culture @devlove 110423Hacker centric culture @devlove 110423
Hacker centric culture @devlove 110423
Hiro Yoshioka4.1K vistas
100622 学術情報セミナー por Shuhei Otani
100622 学術情報セミナー100622 学術情報セミナー
100622 学術情報セミナー
Shuhei Otani506 vistas
群衆の知恵・集団的知性とWikiコラボレーション por Makio Tsukamoto
群衆の知恵・集団的知性とWikiコラボレーション群衆の知恵・集団的知性とWikiコラボレーション
群衆の知恵・集団的知性とWikiコラボレーション
Makio Tsukamoto10.1K vistas
Oss magic por K5_sem
Oss magicOss magic
Oss magic
K5_sem1.3K vistas
リテラシー研修 Amano 201210_ss por Eriko Amano
リテラシー研修 Amano 201210_ssリテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ss
Eriko Amano1.3K vistas
ライフエンジンを支える検索エンジンの作り方 por Chiaki Hatanaka
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方
Chiaki Hatanaka1.1K vistas
図書館総合展ネットアドバンス主催フォーラム 清田talk por Yoji Kiyota
図書館総合展ネットアドバンス主催フォーラム 清田talk図書館総合展ネットアドバンス主催フォーラム 清田talk
図書館総合展ネットアドバンス主催フォーラム 清田talk
Yoji Kiyota640 vistas
Internet and Opensource at Security and Programming camp 2011 por Hiro Yoshioka
Internet and Opensource at Security and Programming camp 2011 Internet and Opensource at Security and Programming camp 2011
Internet and Opensource at Security and Programming camp 2011
Hiro Yoshioka820 vistas
Code4Lib 2010報告会・発表ダイジェスト por Masao Takaku
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
Masao Takaku857 vistas

Más de kulibrarians

20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」 por
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」kulibrarians
355 vistas29 diapositivas
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々 por
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々kulibrarians
1.3K vistas32 diapositivas
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と― por
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―kulibrarians
1.4K vistas18 diapositivas
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩 por
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩20190308 ku-librarians勉強会 #225 :SQLはじめの一歩
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩kulibrarians
1.2K vistas27 diapositivas
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として por
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心としてkulibrarians
1K vistas90 diapositivas
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み por
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組みkulibrarians
621 vistas53 diapositivas

Más de kulibrarians(20)

20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」 por kulibrarians
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」
20191210 ku-librarians勉強会 #232 :【20周年記念】「大学図書館という機能:ストレージからフィールドへ」
kulibrarians355 vistas
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々 por kulibrarians
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々
20190419 ku-librarians勉強会 #226 :KURENAI担当者としての日々
kulibrarians1.3K vistas
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と― por kulibrarians
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―
20190419 ku-librarians勉強会 #226 :医学図書館1年目―閲覧と整理と―
kulibrarians1.4K vistas
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩 por kulibrarians
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩20190308 ku-librarians勉強会 #225 :SQLはじめの一歩
20190308 ku-librarians勉強会 #225 :SQLはじめの一歩
kulibrarians1.2K vistas
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として por kulibrarians
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として
20171004 ku-librarians勉強会 #216 :蔵書構築と資料提供、その基盤としての資料保存 -和歌山大学図書館の虫害対策実践報告を中心として
kulibrarians1K vistas
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み por kulibrarians
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み
20170915 ku-librarians勉強会 #215 :Linked Dataの学術論文マイニングへの応用とLinked Dataの質の改善への取り組み
kulibrarians621 vistas
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅 por kulibrarians
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
kulibrarians709 vistas
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅 por kulibrarians
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
kulibrarians7.2K vistas
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅 por kulibrarians
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
20170222 ku-librarians勉強会 #211 :海外研修報告:英国大学図書館を北から南へ巡る旅
kulibrarians796 vistas
20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち por kulibrarians
20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち
20160708 ku-librarians勉強会 #204 :「読書の自由」成立をめぐって:1950年代アメリカの図書館員と出版者たち
kulibrarians1.1K vistas
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館 por kulibrarians
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
kulibrarians1.6K vistas
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館 por kulibrarians
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
20160526 ku-librarians勉強会 #202 :海外研修報告 : パンケーキとシガールと図書館
kulibrarians702 vistas
20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から por kulibrarians
20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から
20160629 ku-librarians勉強会 #203 :図書館の使いやすさとは? : 奈良教育大学図書館の経験から
kulibrarians1K vistas
20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常- por kulibrarians
20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常-20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常-
20151127 ku-librarians勉強会 #197 :国立国会図書館出向報告-調査情報係の日常-
kulibrarians1.5K vistas
20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化 por kulibrarians
20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化
20150903 ku-librarians勉強会#195 :世界の“図書館をめぐる冒険”から考える、ライブラリアンによる教育・研究支援の高度化
kulibrarians1.5K vistas
20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅 por kulibrarians
20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅
20140220 ku-librarians勉強会#174 :海外研修報告:紅茶とビールと図書館の旅
kulibrarians841 vistas
20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips por kulibrarians
20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips
20150128 ku-librarians勉強会#187 : 明日から医学図書館員になるために:知っておくと役立つTips
kulibrarians1.7K vistas
20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索 por kulibrarians
20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索
20140826 ku-librarians勉強会#181 : 石井米雄コレクションにおけるバーチャル図書館機能と閲覧ナビゲーターによる情報探索
kulibrarians1.6K vistas
20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ... por kulibrarians
20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ...20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ...
20140731 ku-librarians勉強会#180 : 大学図書館は違う! 何が? - 大学図書館の機能、NACSIS-CAT30年の価値、データ...
kulibrarians1.4K vistas
20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島) por kulibrarians
20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島)20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島)
20140131 ku librarians勉強会#173:新人企画「資料管理業務について」(福島)
kulibrarians886 vistas

20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見

  • 1. 2009年8月27日 第114回ku‐librarians勉強会@京都大学附属図書館 Wikipediaをいかに使いこなすか? ~知識抽出、情報ナビゲーション、 ~知識抽出 情報ナビゲ ション そしてトピック発見 見 東京大学情報基盤センター 東京大学情報基盤センタ 学術情報研究部門 助教 (兼 株式会社リッテル 上席研究員) 清田 陽司 清
  • 2. 関心分野 • 自然言語処理技術を応用した情報検索システム – 対話的ヘルプシステム「ダイアログナビ」 対話的 ルプシステム ダイア グナビ」 • WindowsやOffice利用者向けの質問応答サービス • 情報検索プロセスの解明 – 対話(聞き返し)による情報探しニーズの明確化 – 情報の組織化 • 聞き返しをするには何らかの知識構造が必要 – 情報検索手段の変遷 • 人に聞く 図書館 データベース サーチエンジン 掲示板 人に聞く、図書館、データベース、サーチエンジン、掲示板… 図書館レファレンスサービスの課題と共通 • レファレンス支援システムの研究 – タクソノミーとフォークソノミーの統合 – 実用システムの研究開発 リッテルナビゲーターとして実用化 2
  • 3. 経緯 • もともと京大メディアセンターのヘルプシステム を手掛かりに博士の研究を始めた ( 年) (2000年) – 京大附属図書館レファレンスシステムもあった – 利用できるデータはNDLSHだけだった • その後 MSとの共同研究でダイアログナビを その後、MSとの共同研究でダイアログナビを 開発し、博士論文を提出 • 「次に何を研究しようか」と考えていたときに東 大総合図書館内の研究室に赴任 (2004年) – 図書館の豊富な情報リソースをうまく使えないか? – Wiki di のコンテンツが本格的に充実してきた Wikipediaのコンテンツが本格的に充実してきた
  • 4. ダイアログナビ(Dialog Navigator) ( g g ) • マイクロソフト株式会社との共同研究 • 2002年4月から運用開始 • いまは稼働していませんが 4
  • 5. 5
  • 6. 6
  • 7. 7
  • 8. 8
  • 9. 9
  • 10. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 10
  • 11. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 11
  • 12. エキスパートやコールセンター 対話的に具体性のギャップを解消 Windowsで エラーが発生したのはい エラーが発生した つですか? お使いのWindowsは何で すか? どんなエラーメッセージが 出ましたか? 12
  • 13. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 13
  • 14. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 14
  • 15. こんなときどうしますか? • Winnyをテーマにしてレポートを書く – 知的財産(著作権)に関する法律の観点から – P2Pソフトウェアの技術について – 匿名掲 板独特 文化 匿名掲示板独特の文化 – 表現の自由との関連 • 「日本のアニメ」を研究したい – アニメ産業のあり方 (製作会社、分業制、…) ア メ産業のあり方 – アニメ製作技術 (セル画、CG、…) – アニメの主題 キャラクターの描き方・・・ユニ アニメの主題、キャラクターの描き方・・・ユニ セックス… – アニメの国際比較 アニメの国際比較… 15
  • 16. こんなときお役にたちます リッテルナビゲ タ リッテルナビゲーター =情報探しのヒント検索システム (1) 「 「切り口」探し 探 (2) 情報の関連づけ 情報そのものの発見、情報の関係との発見 16
  • 17. リッテルナビゲーターとは? リッテルナビゲ タ とは? 「情報探索のヒント」検索システム =パスファインダ 自動生成システム =パスファインダー自動生成システム • さまざまな情報リソースの統合検索 – 件名標目、書架分類、レファレンスブック、 Webサイト、オンライン百科事典、... • 曖昧な質問(キーワード)から具体的な探 し方へのナビゲ ション し方へのナビゲーション – Wikipediaを用いた探索テーマの自動導出 17
  • 18. リッテルナビゲーターの主な機能 リ テルナビゲ タ の主な機能 • テーマグラフの自動生成 – 分野の自動的な導出 • 分野からの情報探し – 日本十進分類法(NDC)による資料検索 →書架の特定、参考図書調べ – インタ ネ ト学術情報インデ クスの利用 インターネット学術情報インデックスの利用 • 関連キーワード探し • 他のサーチエンジンとのリンク – OPAC JapanKnowledge Google Scholarなど OPAC、JapanKnowledge、Google Scholarなど 18
  • 19. 19
  • 20. 20
  • 21. セキュリティへの脅威 (情報漏洩など) 著作権法改正の 議論に与えた影響は 議論に与えた影響は? 被害額は? ソフトウェアの開発モデ ルとしてのフリーウェア ルとしてのフリ ウェア 21
  • 22. P2Pネットワーク P2Pネットワ ク 技術の観点から 特異な存在 ソフトウェア=創作物 匿名性により普及 創作物を公開することで逮捕され 創作物を 開する と 逮捕され 匿名掲示板独自の るのは表現の自由に反する? 文化 22
  • 23. 23
  • 24. 一大産業としての ア アニメ 芸術としてのアニメ アニメ製作技術の もはやサブカル 高度化 チャーではない? 24
  • 25. 25
  • 26. 26
  • 27. •著作権法百年史 •著作権法事典 •著作権法ハンドブック 著作権法 ドブ ク •表現の自由・著作権・名誉毀損 やさしく引ける判例総覧 •著作権法のノウハウ •… 27
  • 32. 利用実績 • 導 導入先 東 東京大学、東京電機大学、同志社大学、東邦大 、東 機 、 、東 学、亜細亜大学、千葉大学、神奈川工科大学 ※2009年5月より国立国会図書館 リサ チ ナビ ※2009年5月より国立国会図書館「リサーチ・ナビ 」にコンポーネントとして導入 • マーケティング用途利用 マ ケティング用途利用 – ベクトル空間モデルによる関連KW抽出とWikipedia カテ リの組み合わせでSEMワ ド候補を導出 カテゴリの組み合わせでSEMワード候補を導出 – 分野別辞書の作成 • テレビ番組、ドラマ、タレント、映画、お菓子、… 32
  • 33. ワ ド抽出例 ワード抽出例 おでん 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん… 涼宮ハルヒの憂鬱 涼宮 ルヒの憂鬱 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊 少年エース、ねこマン、… 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ タル・パニック!、… 独立UHF放送局→らき☆すた NHKにようこそ! 魔 独立UHF放送局→らき☆すた、NHKにようこそ!、魔 法少女リリカルなのはA‘s、ひぐらしのなく頃に、少 年陰陽師、ゼロの使い魔、… 年陰陽師 ゼロの使い魔 33
  • 34. もくじ 1. Littel Navigatorとは? 2. 2 図書館の世界とW bの世界 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす Wiki di を使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 34
  • 35. 情報検索の手段の変遷 • 20世紀以前 – 人に聞く – 相談窓口 (無料: 図書館や公共機関, 有料: コンサルタントなど) – 本屋に行く – 図書館で調べる – Webディレクトリ、個人ブックマーク、商用DB… デ ク 個人ブ ク ク 商 • 21世紀: 上に加えて – GoogleなどのWebサーチエンジンの利用 – 掲示板 人力検索エンジン ソーシャルブック 掲示板、人力検索エンジン、ソ シャルブック マーク… 35
  • 36. 情報探しのニーズ • Web検索で探せる質問=事実を問う質問 – 関東大震災はいつ発生しましたか? – XXXってどんな病気? • 本当に探し手が知りたいこと – 大学の学生「関東大震災についてのレポートを書か 大学の学生「関東大震災についてのレポ トを書か なきゃいけなんだけど、いったいどんな資料から調べ 」 たらいいの?」 – 難病の患者「この病気について最先端の治療を行っ ている病院を探す方法は?」 情報探しのテーマが曖昧な場合が多い →テ マの推薦(レコメンデ ション)が必要! →テーマの推薦(レコメンデーション)が必要! 36
  • 37. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして 欲しい – これができないと結局使ってもらえない • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 存在 • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 37 Web情報の組織化の現状は?
  • 38. Web情報の組織化の取り組み • サーチエンジンの性能向上 ジ – PageRank ( eb の民主主義) age a (Web上の民主主義) – 自然言語処理分野の成果の活用 • 多数の 般利用者による情報組織化 多数の一般利用者による情報組織化 – ブログ: トラックバック – 掲示板: スレッド、まとめサイト – ソーシャルブックマーク: 一般利用者によるタグ ソ シャルブックマ ク: 般利用者によるタグ (キーワード)の付与 – Wikipedia: 百科事典の共同編纂 38
  • 39. 情報検索におけるロングテール(?) • 難病の治療法 – 10万人に1人という難病にかかった。かかりつけの医者 はXという治療法を勧めたが、深刻な副作用を伴うらしい。 一方、たまたまニュースで海外で普及しつつある治療法Y 方 たまたまニ スで海外で普及しつつある治療法Y を知ったが、それを実践できる医者を知らない。さてどち らを選択すべきか? • F社の期限切れ原料使用問題の背景 – 過去の同様の事件との共通点は? – では他社の製品は安全なのか? – Web掲示板上での主流意見はあてになるのか? • A市における過去100年間の犯罪発生率 Webの利用で答えられるか? 39
  • 40. Webの情報検索手段としての性質 利点 • とんでもなく広いカバレ ジ とんでもなく広いカバレッジ • 多様性(マスメディアへのアンチテーゼ) ( ) 欠点 • 価値・信頼性の判断基準を提供してくれない – 利用者自身が知識体系をもっている必要がある • フロー情報中心 情報中心 – ストック情報は残りにくい – 注目されすぎた情報は突如姿を消してしまう • ブラウジング指向の組織化 40
  • 41. Web上での組織化の限界 ブラウジング指向に偏りがち ブ ジ グ が • ソーシャルブックマークやランキングを機能さ ソ シャルブックマ クやランキングを機能さ せているフィードバックは、ブラウジングを便 利にしたい情報消費者のものが中心 • 偏った探索になりがち – 検証を経ていない二次情報への頼りすぎ • 人類が積み重ねてきたストック情報とリンクさ れていない(浅い組織化) 41
  • 42. Webの可能性 可能性 • 探索手段としての間口の広さ – どんなキーワードを入力してもとりあえず何かヒット ド も ず – 情報探索の足がかりとしては最適 • 注目されていない情報も存在を許される – マスメディアにはない最大の特色 – どうやって価値を判断するかが問題 • Wikipediaの可能性 – 膨大な項目数(日本語: 30万項目以上) – 明確な目的: 「 確な 的 「Web上に百科事典を構築する」 科事典を構築する – 項目の組織化への取り組み(Wikipediaカテゴリ) 他のWebサイトにはない大きな特色 42
  • 43. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして Web 欲しい – これができないと結局使ってもらえない Wikipedia • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 図書館 存在 システム • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 渡 情 Wikipediaを橋渡しとして、信頼できる情報 資源をお薦めできないか? 43
  • 44. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 44
  • 45. オントロジーとフォークソノミー オントロジー ジ フォークソノミー • トップダウン的な分類 • ボトムアップ的な分類 • ひとつの上位概念 • 複数の上位概念 再生可能 半導体 電気化学 電池 エネルギー 素子 電離層 電池 磁気化学 燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ 図書館的な分類体系 Web的な分類体系 45
  • 46. Wikipedia p 価格 • インターネット上で共 価格(かかく)とは、有形・無形の各種の商品 (サービスを含む)の取引に際して提示される金 同編集されている多 額を言う。基本的には需要と供給のバランスに 言語百科事典 よって決定される。一般には、値段(ねだん)とも 呼ばれる。 • 各記事にはカテゴリ … カテゴリ: [マーケティング][経済学][市場] が付与されている – フォークソノミーの特 フォ クソノミ の特 社会 徴を有する 社会科学 経済 – カテゴリにもカテゴリを 付与できる(ゆるやか 労働 産業 な階層構造) ビジネススキル 商業 – 複数の上位概念を与 えることができる(多重 経営学 流通 継承) マーケティング 経済学 ケティング 市場 46 価格
  • 47. オントロジー 社会 型構造 社会科学 経済 労働 産業 ビジネススキル ビジネ キ 商業 経営学 流通 マーケティング グ 経済学 市場 フォ クソノミ 型 フォークソノミー型 構造 価格 47
  • 48. 提案: Wikipediaと図書館分類体系の 対応づけ 図書館の分類体系をWiki di で拡張してみよう 図書館の分類体系をWikipediaで拡張してみよう! • Wikipedia – Webの汎用的な情報資源としては最も組織化されてい る(Wikipediaカテゴリ) – Web上の他の情報資源との親和性をもつ • 図書館分類体系(書架分類法、件名標目表) ( ) – 人類が営々と積み重ねてきた知識体系 – 価値判断に必要な情報資源への有力なポインタ 両者を組み合わせて利用することによって、キー ワ ドから探索テ ワードから探索テーマ(=件名)を自動導出する ( 件名)を自動導出する → 導出された件名に関連する情報資源を提示 48
  • 49. 社会科学(300) 自然科学(400) 技術(500) 「地震防災の事典」(岡( 「日本被害地震総覧」 経済(330) 田恒男ほか, 2000年) 社会(360) 地球科学(450) 建築学(520) (宇佐美龍夫, 2003年) 経済史(332) 社会福祉(369) 地震学(453) 建築構造(524) 「経済学事典」(日本 経済新聞社, 1996年) 経済史-日本 災害 地震誌(453.2) 地震 (332.1) 経済史-日本 地震災害 地震予知 耐震建築 -平成時代 (332.107) 図書館オ 図書館オントロジー ジ (NDC, BSH) Wikipedia p 経済史 災害 震災がその後の 日本の 災害と防災の 防災対策に 地震 経済史 歴史 与えた影響 平成時代 地震の歴史 震災を引き起こした 地震(1995年兵庫県 震災が日本経済に 南部地震) 49 与えた影響 阪神・淡路大震災
  • 50. 情報探索の スタ ト地点 スタート地点 Web情報資源(サーチエンジン) 情報資 ジ フォークソノミー 図書館 Wikipedia 情 分類体系 報の •NDC 専 対応づけ→ 門 •BSH 性 深い情報探 多様な情報資源 ・ 索へ 信 •入門書 頼 •レファレンスブック レフ レンスブ ク 性 •各種データベース •学術雑誌論文 学術雑誌論文 •過去の文献・資料 50
  • 51. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 51
  • 52. 最新の状況 • 日本語版が60万項目を超えた (7/8) 本 版が を超 た – XMLでダウンロード可能 (1.1Bytes) ダウン 可能 ( y ) • 英語版は300万項目を超えた (8/17) –9 G 9.4GBytes, bzip2圧縮 b i 2圧縮 52
  • 53. Wikipediaで何ができる?(1) • コーパスとしての利用 パ – 定義文の抽出 → 言い換え 定義文 抽出 → 言 換え • コーパスとは、電子化された自然言語の文章から成る 巨大なテキストデータである。 – 翻訳用例の獲得 (言語間リンク) • 文書集合としての利用 – 単語(Wikipediaエントリ)間の類似度計算 53
  • 54. Wikipediaで何ができる?(2) • 表記揺れ辞書としての利用 – リダイレクト • ソフトウエア工学 → ソフトウェア工学 → ソフトウェア工学 • モンティ パイソンズ → モンティ パイソン • 線形代数学 → 線型代数学 • 国道17号線 → 国道17号 • 業務上過失致傷罪 → 業務上過失致死傷罪 – 括弧表現 • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である 放散虫の一群である。 • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通 称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST  CORPORATION)は、日本最大手の電気通信事業者である。 54
  • 55. Wikipediaで何ができる?(3) • シソーラスとしての利用 – Wikipediaカテゴリ p カテ リ • 固有表現辞書としての利用 – 地名 人名 組織名 地名、人名、組織名 – 商品名 • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ キー、チョコエッグ、… • 自動車: カローラ、エスティマ、マーチ、ベンツ、… • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、… 55
  • 56. Wikipediaの特徴 • 多数の参加者による編集 多数 参加者 る編集 • 半定型デ タ 半定型データ • 外部情報リソースとの連携 • 項目の組織化 56
  • 57. (1)多数の参加者による編集 • 基本方針 「誰 も編集 きる 基本方針は「誰でも編集できる」 • 秩序維持の仕組みが存在する – ガイドライン (5つの原則) – ペ ジ毎のノ ト (議論 合意形成の場) ページ毎のノート (議論、合意形成の場) – 管理者によるコントロール • 保護 (編集合戦への対応) • 削除 • 投稿ブロック • 管理者の選任・解任 57
  • 58. (2)半定型データ • ウ キプ ジ ク ウィキプロジェクト • 大学、スポーツチーム、芸能人、… • テンプレート • 大学、サッカー選手、映画、 58
  • 59. (3)外部情報リソースとの連携 • 外部 外部Webサイトへのリンク – 緯度・経度 (Google Mapsなどへのリンク) 緯度 経度 ( g pな リンク) • 参考文献 – ISBN (Amazon, OPACなどへのリンク) S ( O Cなど のリンク) 59
  • 60. (4)項目の組織化 価格 価格(かかく)とは、有形・無形の各種の商品 • カテゴリシステム ゴ (サービスを含む)の取引に際して提示される金 額を言う。基本的には需要と供給のバランスに – フォークソノミーの よって決定される。一般には、値段(ねだん)とも 呼ばれる。 呼ばれる 特徴を有する … – カテゴリにもカテゴ カテゴリ: [マーケティング][経済学][市場] リを付与できる(ゆ 社会 るやかな階層構造) 社会科学 経済 – 複数の上位概念を 複数の 位概念を 与えることができる 労働 産業 (多重継承) ビジネススキル 商業 経営学 流通 マ ケティング マーケティング 経済学 市場 60 価格
  • 61. 既存の情報リソースとの比較 タクソノミーとフォークソノミーの中間的性格 タクソノミ とフ クソノミ の中間的性格 • 構造 – 下位層はフォークソノミー的 (複数の上位概念) – 上位層はタクソノミー的(単一の上位概念) • 信頼性 – 既存のシソーラスよりはいい加減 既存のシソ ラスよりはいい加減 – フォークソノミーよりは信頼できる? • カバレッジ – フォークソノミーほどではないが、多様な概念をカ バ している バーしている 61
  • 62. 情報の価値評価 信頼性 あるカテゴリ の重要な語彙を網羅性良く含む あるカテゴリーの重要な語彙を網羅性良く含む 意外性 複数のカテゴリ の語彙を併せ 含むか 複数のカテゴリーの語彙を併せて含むか 意外性の程度 複数のカテゴリーの距離がどのくらい離れてい 意 性 程度 複数 ゴ 離がど く 離れ るか 従来は遠いと思われていた概念たちの架け橋 有用性 個人の目的によ て異なる 個々人の過去の興味を示 個人の目的によって異なる。個々人の過去の興味を示 す用語リストに適度に関連することが大切:機械学習による適応 62
  • 63. 意外性の少ない情報 Wikipediaのカテゴリー階層構造の場合の例 あるカテゴリとその直系の子孫の間では新規性、意 外性はない。 イギリスの企業 イギリスの鉄道事業 ユーロトンネル株 式会社 63
  • 64. カテゴリ関係から得られた結果が 多くの人々にとって既知の例 多くの人々にと て既知の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 ユーロト category:イギリ category:イギリス 5 6 あり ンネル会 ネ 会 1 スの企業 の鉄道事業者 社 g y 伝統医 category:伝統医 漢方医 医療 category:医療 t 2 3 あり 1 学 学 category:アメリ 卒業 category:恋愛映 g y カ合衆国の映 6 4 なし (1967年 55 画 画作品 の映画) Category:アメリカ category:アメリ ビーナ ビ ナ 合衆国のオリン カ合衆国のオ 6 7 なし ス・ウィリ 55 ピック金メダリス リンピック選手 アムズ ト category:日本 category:東京都 木村拓 6 5 なし 2088 64 の俳優 出身の人物 哉
  • 65. 意外性のある知識情報 Wikipediaのカテゴリー階層構造の場合の例 離れたカテゴリー間の面白い架け橋は、情報アクセス グラフ間の構造を利用して評価、選別できる。 カ ボンナノチュ ブ カーボンナノチューブ 宇宙 軌道エレベータ 65
  • 66. 意外性のあるカテゴリ関係をもつ項目の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 category:オリンピック category:日本の内 5 射撃競技日本代表選 8 なし 麻生太郎 1 閣総理大臣 手 category:弁当 4 category:キャラクター 5 なし キャラ弁 1 category:アメリカ合衆 テカムセ category:呪術 4 6 なし 1 国の大統領 の呪い category:オリンピック category:日本の経 5 サッカー日本代表選 8 なし 堀江忠男 1 済学者 手 category:コンピュー 福田ウイ 5 category:福田康夫 4 なし 1 タウイルス ルス カナビス・ category:祭 3 category:大麻 3 なし 1 カップ category:イリノイ州 category:グラミー賞 バラク・オ 選出のアメリカ合衆 7 4 なし 1 受賞者 バマ 66 国上院議員
  • 67. 新規性、有用性のある知識はどこにいるか iki di の構造を機械学習 Wikipediaの構造を機械学習 下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から 教師あり機械学習し、情報の評価、選別、発見、推奨に活用 カーボンナノチューブ このカテゴリーの 記事に現れる語 宇宙 彙 このカテゴリーの 記事に現れる語 彙 軌道エレベータ 67
  • 68. 用語の対訳取得 Wikipediaの対訳の利用(システム開発中) Web上の多言語資源などから専門用語対訳 辞書抽出 現在も進めており、日中、日英での成果あり 現在も進めており 日中 日英での成果あり 多言語化により言語コミュニティのごとのモノ の見方の相違を調べることができる 言語依存性の少ないシステム 言語依存性の高いソフトの使用は最小限にし、多くの 言語への拡張性を狙う。 言語への拡張性を狙う 68
  • 69. Wikipediaの言語間格差の解消 参考文献が充実 数学関係が充実 英語のWikipedia 280万項目 英語 p 項目 日本語のWikipedia 50万項目 ローカルな文 化などで必ず ローカルな文 ロ カルな文 Wikipe しも対訳され 対訳の 化などで必ず diaを補 る必要はない ある項目 しも対訳され 完する 項目 技術用語な る必要はない ど対訳される 項目 べき項目 選別 用語を翻訳し、 用語を翻訳し 対応する日本 Web 語Webページ ページ この境界線を見つける機械学習手法 を検索 自然言語処理(固有名、地域名などの処 理を利用) 69
  • 70. Wikipediaのデータを活用するには • 全デ タ 全データはXMLでダウンロード可能 ダウ ド 能 • ただし取り扱いは意外と面倒 – データが巨大 – Wiki記法のparsing iki記法の i – リンク切れの扱い Wikipediaの軽量解析ツ ルを開発しています Wikipediaの軽量解析ツールを開発しています Wik‐IE: http://wik‐ie.sourceforge.jp/ 70
  • 71. Hadoopとは何か? A large‐scale distributed batch processing  infrastracture • Large‐scale = Web規模のデータを扱える • 1TB t (1兆バイト) 1PB t (1000兆バイト) 1TBytes(1兆バイト)~1PBytes(1000兆バイト) • Distributed = 分散型システム • Batch = バッチ処理専用 (高速な処理) • I f t t インフラとしてのシステム Infrastructure = インフラとしてのシステム • つまり意識せずに使える
  • 72. Hadoopのアプローチ • 並列処理をするためにたくさんのコンピュータ をつないで、大量の情報を効率的に処理 • コストの安いコンピュータをたくさん結びつけ てひとつのクラスタを構成する • 1000個のCPUを積んだ1台のマシン(現実には存 在しないが)のコストは、1個のCPUを積んだ1000 在しな が トは 個 を積んだ 台のマシンより高くつく
  • 73. スケールアップとスケールアウト 1台の計算機 の性能 性能を上げようとすると コストが飛躍的に 増大してしまう この領域をうまく 使いたい コスト
  • 74. 既存技術との比較 • H d Hadoop • 単純化されたプログラミングモデル • ユーザは簡単に分散システムの実装とテストが可能 • 与えられたデータとタスクを各マシンに効率的・自動 的に分散 • 各マシンのCPUコアをフルに活用できる • 既存技術の例: Condor  • データの分散機能がない • 高価なストレージ(SAN)が必要 • 各マシン間での同期システム( 各マシン間での同期システム(MPIなど)を実装する必 など)を実装する必 要
  • 75. データ分散 •h d のクラスタ hadoopのクラスタ • データを全ノードに分散 • Hadoop分散ファイルシステム(HDFS) • 大きなデータファイルは 管理された複数ノー 大きなデ タファイルは、管理された複数ノ ドに分散 • 分散したファイルは、複数マシン間で複製 • マシン故障でもデータ損失がない • 故障に応じて データを再複製 故障に応じて、デ タを再複製 • 一つの名前空間で管理し、アクセス可能
  • 76. MapReduce: 各プロセスの自立性を高める • 各プ 各プロセスの個別化で信頼性向上 個 信頼性向 • 「MapReduce」プログラムモデルで記述 • MapReduce • Mappers:分割するタスク • Reducers:集約するタスク • ノード間通信の制限で、データ転送を管理 • 分散システムの信頼性を向上
  • 77. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 3 6 8 reduce reduce reduce r1 s1 r2 s2 r3 s3
  • 78. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine combine combine combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partitioner partitioner partitioner partitioner Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 9 8 reduc reduc reduc e e e r1 s1 r2 s2 r3 s3
  • 79. MapReduceの応用タスク • 検索 検索インデックスの作成 デ 作成 • キーワードのカウント キ ワ ドのカウント • ログの時系列解析 – 例) あるキーワードで探した人がどんな資料にあ たっているのか? • レコメンデーション(いわゆる協調フィルタリン グ) • グラフ探索 • 機械学習 79
  • 80. スケーラビリティ • Hadoopの利点の1つは、単調なスケーラビリティ d の利点の は 単調なスケ ラビリテ カーブ • Hadoopプログラム プ グ • 小規模データは不向き→他の分散システムで実行さ せた方が良い場合がある た方が良 場合がある • 他の分散システム • 大規模(10~1000台のマシンで実行)データでは、書 き換えが必要 • 非常にフラットなスケーラビリティカーブ • マシン数と比例したパフォーマンス増加
  • 81. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 81
  • 82. 今後 展開 今後の展開 他言語版の開発 • 英語版 開発中 LCSHが検索可能 英語版の開発中: が検索 能 分野別シソ ラスの活用 分野別シソーラスの活用 • 医学分野: MeSHなどとの連携 情報リテラシー教育の題材として • 大学の教育現場 – シラバスとの連携 • 企業研修、生涯学習など 業 修 学 など – 検索の多様な側面を体験的に学べる 検索の多様な側面を体験的に学 る 82
  • 83. おわりに • Wikipediaと図書館分類体系の統合利用によって、 パスファインダ に近い「情報探索のヒント提示」を パスファインダーに近い「情報探索のヒント提示」を 可能とした – 情報探索の多様な「切り口」の提示 – 信頼性のある情報資源への誘導 • 「 書館 「図書館かWebか」という二項対立ではなく、両者 な 者 の役割を踏まえた見方が大事 – 図書館: 信頼性、組織化 – Web: どんなキーワードからでも探せる どんなキ ワ ドからでも探せる 83