Code4lib2014.09.06 fujiwara

2014.9.6 – 9.7 Code4Lib JAPAN カンファレンス2014 ＠鯖江市図書館
（文化の館）
ライトニングトーク(5分)用
連想検索エンジンGETAssocを活用した「発見
対象文書」×「ユーザーペルソナ」検索
― 2013年LT「連想検索へのユーザー目的モデルの追加と，「連想ストーリー」のパッケー
ジ化の試み（言語の経験空間の動的モデル化に向けて）」の経過報告―
藤原剛(Takeshi FUJIWARA)
所属：DAYPLA株式会社
http://wiki.code4lib.jp/wiki/C4ljp2014/presentation#fujiwara 1

連想検索エンジンGETAssocを活用した
「発見対象文書」×「ユーザーペルソナ」検索
• 2013年のLTで発表した「連想検索へのユーザー目的モデルの追加と，「連想ス
トーリー」のパッケージ化の試み（言語の経験空間の動的モデル化に向けて）」の
経過報告を行う．
• 昨年発表の構想を整理し直すと次のようであった．【連想検索にファセットナビ
ゲーションを組み合わせる際，情報検索にあたってのユーザーの「目的」といった
指向性を仮定し，それを，検索対象やターゲットとなる文書とは別に，連想検索の
文書ファイル(プロファイル辞書)として作成する．これにより，ベクトル空間モデル
で，連想計算用にインデクシングされる多次元空間には，ユーザーの目的軸がで
き，ファセット検索に応用できる．また，動的(オートマトン的)にサジェストでき
る．】
• その後，制約等からファセットナビゲーションの実装に至らないでいるが，より簡
易な方法としてユーザー「ペルソナ」を文書ファイル化し，これを，検索・発見対象
の文書に掛け合わせてインデクシングをした．今回，取引先クライアントの好意に
より，実際のサービスサイトで簡易な実証実験を行う．
2
http://wiki.code4lib.jp/wiki/C4ljp2014/presentation#fujiwara

昨年2013 LT資料から(一部補足改定)
はじめに・・・連想検索とは？
• 「連想検索とは、文書と文書の言葉の重なり具合をもとに、ある文書
（検索条件）に近い文書（検索結果）を探し出す検索技術です。」
• 「→平たくいえば、使われている言葉の集まりを手がかりにした仲間
探しです。{あなたが選んだ} 言葉の集まりをたよりに、1000万冊以
上の膨大な本の中から、{あなたの関心に} 近い本を探します。」
• (Webcat Plusの説明から引用)
3 検索条件(文書) 検索結果(文書)

今回の取り組みは
ユーザーの経験的(明示的・非明示的)な目的(及びそのフィードバック)を変数
化 対象となる文書空間に(新たな軸として)加えて計算する・・・
4
SEARCH
QUERY
TEXT.. space
Structured
or not
schemed
QUERY
TEXT.. Space
/ corpus
Feedback
To user(s)
or artificial
user models
information filtering systems,
machine learning, HCI,
personalization,
profiling,
behavioral targeting,
collaborative filtering,
recommender systems …etc.
Information retrieval
Feedback to
Search query
and/or
Interface UX MY/OUR
KNOWN OR UNKNOWN
GOAL
© DAYPLA Corporation, not including smiley pics etc.

今回の取り組みは
ユーザーの経験的(明示的・非明示的)な目的(及びそのフィードバック)を変数
化 対象となる文書空間に(新たな軸として)加えて計算する・・・
といった検索技術において広くかつ多様に取り組まれている試みを
連想検索に適用
• GETAssoc を活用
5
http://getassoc.cs.nii.ac.jp/
GETAssoc
国立情報学研究所連想情報学研究開発セン
ターで開発された連想検索エンジン
特長：
・高速な文書検索
・HTTPインターフェースのサポート
・複数データベース間の横断検索が可能
・複数CPU対応による負荷分散
・インデックスの差分更新対応
・検索インデックスの構築が容易
・任意の類似度尺度が記述可能
・オープンソース

ユーザーの目的とファセット検索：Webcat Plusでの参考例※
6
検索結果１
関連するキー
ワード
「連想ワード」
で絞り込みを
提供
検索結果２（絞り込み）
※上記例の場合、正確には、文書中の語につけられた「行為」のメタ情報であり、ユー
ザーの目的とするゴールと一致するとは限らない。他方、ユーザーに対し、アクター的
視座の要素を提案するファセットであり、情報探索の目的との親和性がある。
ファセット
①と② http://webcatplus.nii.ac.jp/
から※キャプチャー画面引用の明確性区別
① ②

今回の試みは、「連想ストーリー」のパッ
ケージ化
• 今回の試みは、イメージとしてはこのようなファセット
ナビゲーションに、
 より可変的な粒度での、ユーザーの「目的」を仮定的に付加し、
 および情報サービス提供者側(例：教育目的や事実や研究探索上の構
成的な情報探索)の提案する「目的」を考慮し、
 情報の体験空間にツアー的なシークエンスを持たせ、また、
 そこからの行動計測から、
 仮定された目的が、ユーザーと情報サービス提供者間で、マッチングし
やすいようなフィードバックを行います。
7

連想検索のデータの面では、
• より具体的には、文書ＤＢとなるコーパスファイルにユーザの目的を
表すデータを仮定的に含め、
• 「目的」を連想計算に含めたベクトル空間モデルを形成します。
• バリエーションのある語用空間のモデル(プロファイル辞書)を連想計
算用に作成し、
• それをユーザにフィードバックします。
8

9
アプリケーションで実現しようと思ったこと
ツアー的・経過的なシークエンスから、動的にファセットのサジェストを行う仕掛け
※行動計測と(query – document間の)relevance feedbackにつなげるUXインタフェースとして

元資料2012.11月バージョンから関連
10

元資料2012.11月バージョンから関連
11

情報検索にも、ストーリー(イメージ)とシナリ
オ(記述)がある
• 連想出版様の「連想ストーリー」設計の例
12 「連想検索について－コンテンツ提供側から見た連想検索－」2010/11/16連想出版青木隆平様の資料から使用許諾済み

連想ストーリー：
インタラクションによる探索行動
• ユーザの手動アクションを織り込むことにより)によってずれが小さくなっていくことは、連想検索
のコンセプト
• 連想検索を用いれば，目的の検索結果に少しずつ近づいていく連想された事柄を次々と巡る
ことで，いつのまにか利用者が思いもしなかった事柄へと興味が移ろいゆく(*1)
• 理解の深まりを対話的に支援
• ファセット絞り込みは手動要素が多い
現在→ ユーザーの自発的なインタラクティブ行動を前提
動的サジェストの視点→ ユーザーが逐次に自発的に働き
かけなくとも、インタラクティブに(オートマトン的・自律的な
適合を行う)探索支援
13 *1 「連想検索について－コンテンツ提供側から見た連想検索－」2010/11/16連想出版青木隆平様の資料から使用許諾済み

表側のアプリケーション：まずはitb内propをフィルター条件として結果を返し
17
ロテーションする、簡易なモデルが実装できるか→ok

18

19

20

k-navi (client application)
22
現在のステージ
カスターマー・サイト

23
(client
application)
http://getassoc.cs.nii.ac.jp/?GETAssocの概要から

現時点では企画の前提条件が揃っていない
• インタラクティブなファセットナビゲーションの実装に至って
いない
– ユーザー「目的」のフィードバックを受ける機構としても必要
– GETAssocへのクエリーを管理者が登録するスタティックな仕掛けまで実装
– 反省点 はじめにファセットナビゲーションに対応したオープンソースの全
文検索システムを活用した開発アプローチを優先してもよかったかもしれな
い。また、経済的・時間的・制約・参加アプローチの不足等の反省材料。現ス
テージの制約なら、どこまで事業企画のシーズとすることが妥当か、の線引
き等。
そこで
• より簡易な方法としてユーザー「ペルソナ」を文書ファイル
化し，検索・発見対象の文書に掛け合わせて連想検索用
に・・・サービス側の仮説観点ではあるが、データを入れ
ていくモデル(雛形)としてはかたちをつくる価値はありそう
だ
24

25
(データ作成・処理)
http://getassoc.cs.nii.ac.jp/?GETAssocの概要から

使用データ
• カスタマーサイト、約400ページ（対象文書）
• ステップ１．そのまま
• ステップ２．ペルソナのユースケースでタギング
• ステップ３．特徴語をもとにWikipediaで対象文書を補足的に拡張(未)
• ステップ４．データへ適合性フィードバック(未)
• ユーザー・ペルソナ文書
• ステップ１．クライアント・インタビューによる簡易プロ
ファイリング（５ペルソナ×2桁キーワードレベル）
• ステップ２．クライアント・アンケート(約19万全角文字)による、カスタマー
観点からのユーザープロファイル仮説(着手)
• ステップ３．セグメント・メルマガ配信等からページ計測(未)
• ステップ４．データへ適合性フィードバック、プロファイル仮説検証(未)
26

ページのスクレーピング(PHPのスクリプト
27
であらかじめitb形式)

28
スプレッドシートに貼り付け

１ファイル横１行、ペルソナ文書とマー
29
ジ

30
GETAssocでのデータ展開

連想検索用itbファイル（テキスト）を
31
ec2上にアップ

Itbファイル(テキスト)から、連想計算に必要なインデッ
クス(NWAM)ファイルを作成(GETAssocのstpコマンド)
32

作成された連想計算用インデックスファイル群(例)
33

ペルソナ文書を基点とした、類似文書
のスコア例(GETAssoc/GSS3から)
34

アプリケーション側でのクエリー登録
37

アプリケーション側でのクエリー登録
38

簡易モデルの条件フィルターナビゲー
39
ション、「シナリオ」セッション数

が、しかし、まだ・・・
• 実証実験開始時は
• データとしてモックアップ（デモレベル）
40

反省点・・・間接的表現として
• オープンソース系ツールを組み合わせるなど、初期段
階で、スクラッチでプロトタイプ開発をしないという路線
もありえたかも
– プロトタイプの試みが先か、各種利用可能ツールの調査
と活用が先か、そのときの事情による？
– 今回は、商用サービスでの実証実験の可能性、また、時
間・リソース・経済的制約から、小さな一歩という位置づけ
– オープンソース化は、最初からか後からか
• 研究面での踏み込みが足りず
– そのときどきの、ビジネスとしての選択と集中の事情が多
少なりともあるとはいえ、バランスを確立したい
41

これからは・・・
• 研究方面へのアプローチ
– 多様な連想検索の研究分野があり、様々な研究成果やモデルを取り
入れ
– 情報検索やデータ処理についてのモデルやアルゴリズム寄りのサー
ビス開発ができないだろうか
• (ライブラリ/ブック系以外でも)実用サービスへの応用可能性を検
討できないか
例えば
– 情報のスクレーピングと併せて、簡易なウェブBIツール開発？
– 簡易なサーチエンジン対応/サイトページデータ最適化ツールとして、
サイト内のHTML要素と文書の目的最適化、(サービスとユーザー双方のクエリー設定
検証と併せ)目的適合性の高いコンテンツ作成支援？
42

可能性・メリット（中期的な目標）
[発展性・応用性]
• ドキュメント・図書・書籍の探索補助として、ユーザ目的辞書の形成や、
目的に適合しやすいリコメンドシナリオ型のファセットナビゲーション。
{{Information |Description= Class
diagram for the LOD datasets
|Source=http://umbel.org/lod_const
ellation.html |Date=2008-10-10
|Author=Michael K. Bergman
|other_versions= }}
43
• Webブラウズ時の関連情報の補助ツールとして提供することで、
Linked Dataの前処理としての、統制タギングを促す。
• 情報アーカイブの空間探索用ツールとして提供することで、多様な経験
空間を纏まりとして追体験、また視座を発見することを促す。

サービス上で実証実験
44

その他検討メモ
• 認知行動上のコンテキスト(背景として目的/動因構成) で動的なサジェスチョンを提供する際の、ファセット(※1)の切り
替え時に着眼。（仮にこれを認知ファセットと呼ぶ）
• 「認知ファセット」の切り替えにおいて、ある知的能動態(もしくは複数)が探索的な状況におかれた際、オートマト
ン様の試行錯誤(認知ファセットの切り替え)が単体または相互にいわばチューナー的に行われる、という仮説を
置く
• その際、そのチューナー的オートマトンの作用対象の粒度において、状況感知、その複合としての感性形成、表
現のシンボル化や構造化・概念化（認知体の内または外に向けたそれ）、といった形成のレイヤーがあると考え
る
• そこにおける、実際の現象（認知の正誤や差異の発生）、および、それらの発生・変容のシミュレーションの研究
やビジネスの可能性（コミュニケーションモデルも関係）
• 中長期的な応用分野として意識する方面：ビッグデータやリンクドデータ(web)の活用機会、環境や社会サステ
イナビリティ等、制約を設けたビジネス機会性・継続性・リスク分析、また、(ソーシャルバリューまた消費対象を流
動または固定された認知対象と置いた場合の)社会や市場の形成・変容・循環の課題抽出と機会創出
※１ファセット自体について、ここでは下記のようなメカニカルな機能としてのファセッティングという意味で用います。インデックスされた検索対象をインデックスによりカテゴライズされた
表示を提供するメカニズム。
https://cwiki.apache.org/confluence/display/solr/Faceting
から引用： As described in the section Overview of Searching in Solr, faceting is the arrangement of search results into categories based on indexed terms. Searchers are presented with the
indexed terms, along with numerical counts of how many matching documents were found were each term. Faceting makes it easy for users to explore search results, narrowing in on
exactly the results they are looking for.
45
Copyright © DAYPLA Corporation All rights reserved.

謝辞
間接的なプレスリリース紹介
http://www.atpress.ne.jp/view/50206
ほか多くの方々
46

Code4lib2014.09.06 fujiwara

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (16)

Similar a Code4lib2014.09.06 fujiwara

Similar a Code4lib2014.09.06 fujiwara (20)

Code4lib2014.09.06 fujiwara

Notas del editor