SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
Code4Lib 2013参加報告
 (セッション聴講を中心に)
        2013年3月24日(土)
Code4Lib Conference 2013参加報告会
             高久雅生
             @tmasao


                                1
自己紹介:高久雅生
• 所属:物質・材料研究機構科学情報室 エンジニア
 – 研究所専門図書館におけるWeb系サービスの研究開発・運
   用を担当
   • 図書館管理システム, 研究者総覧, 機関リポジトリ
• 専門分野:図書館情報学
 – 情報検索、情報行動、電子図書館
• コミュニティ活動
 – Code4Lib JAPANコアメンバー (2010-)
 – saveMLAKシステム担当 (2011-)
 – 情報科学技術協会『情報の科学と技術』編集委員 (2009-),
   諮問委員 (2012-)
 – 情報知識学会 理事 (2008-)
 – ジャパンリンクセンター運営委員会システム技術分科会委
   員 (2012-)
                                 2
Code4Libのコミュニティ
• 北米の図書館エンジニアを中心としたコミュニティ
 – オープンソースソフトウェア (Open Source Software; OSS)
 – 大学図書館や議会図書館、図書館関連団体、企業等に
   勤める図書館員やITエンジニア
• 普段はメーリングリスト、IRC(チャット)での交流
• 地域コミュニティも
 – Code4Lib Midwest, NYC, New England,
   Maryland/Washington DC., Northwest, etc.
 – Code4Lib JAPAN


                                              3
Code4Libカンファレンスの概要
• 2006年から開始
• 毎年2月に開催
• 参加者:250名~400名
  – 半数以上は初参加。
• 朝食、ランチを提供
• 発表:シングルトラックセッション
  – 基調講演(60分~)
  – 通常発表(15~20分): コミュニティの投票で選ばれる。
  – ライトニングトーク(5分):カンファレンス当日にWikiで。
• 分科会(ブレイクアウトセッション)
• プレカンファレンス(Tutorial, Workshops)   4
今年のカンファレンス
     - Code4Lib Conference 2013 -
• 初めての大規模開催:250名→400名へ!
• 大都市シカゴでの開催!
• ストリーミングビデオ
 – https://archive.org/search.php?query=code4lib+
   2013

• (私自身は2010年から4年連続の参加)



                                                    5
セッション技術レビュー
    (情報検索分野という観点から)

• 検索技術や検索ツールの話題
 – 文献検索での関連度順ランキング手法
 – 大量電子書籍の全文検索のチューニング
 – あいまい検索
• 広く情報探索の話題
 – 検索ログ/アクセスログの分析
 – モバイル環境や統合検索の新しい検索インタフェース
 – 書架ブラウジングツール

                         6
今回の発表セッションから
• 検索ツール系(2/12午前のセッション)
 – 新しい検索手法の提案や事例報告がまとまっていた
 – Practical Relevance Ranking for 10 million books
    • (全文検索結果の関連度ランキング法)
 – n Characters in Search of an Author
    • (著者名のあいまい検索法)
 – Citation search in SOLR and second-order operators
    • (引用文献検索の方法)
• 情報探索・利用行動系(2/13午後のセッション)
 – De-sucking the Library User Experience
    • (OPACのユーザインタフェースの改良とその考え方)
 – Google Analytics, Event Tracking and Discovery Tools
    • (アクセスログの詳細分析;OPAC上でのイベント追跡)
 – Actions speak louder than words: Analyzing large-scale query logs
   to improve the research experience
    • (Summonでのサーバログ分析用フレームワークの事例報告)
                                                                       7
今回の発表セッションから
• 検索ツール系(2/12午前のセッション)
 – 新しい検索手法の提案や事例報告がまとまっていた
 – Practical Relevance Ranking for 10 million books
    • (全文検索結果の関連度ランキング法)
 – n Characters in Search of an Author
    • (著者名のあいまい検索法)
 – Citation search in SOLR and second-order operators
    • (引用文献検索の方法)
• 情報探索・利用行動系(2/13午後のセッション)
 – De-sucking the Library User Experience
    • (OPACのユーザインタフェースの改良とその考え方)
 – Google Analytics, Event Tracking and Discovery Tools
    • (アクセスログの詳細分析;OPAC上でのイベント追跡)
 – Actions speak louder than words: Analyzing large-scale query logs
   to improve the research experience
    • (Summonのログ分析環境の事例報告)
                                                                       8
Towards Practical Relevance Ranking
       for 10 million books (1)
• 発表者:Tom Burton-West(ミシガン大学図書館)
• HathiTrustでの全文検索エンジンSolrを使った全文検
  索サービスからの事例報告
 – 70機関以上の図書館が収集した電子書籍リポジトリ
 – 約1,050万冊
 – 450TB(画像:JPEG2000+TIFF, OCRテキスト, メタデータ)
• 検索における課題
 –   超大規模な文書群に対する全文検索
 –   多言語(400言語超)
 –   OCR性能のばらつき
 –   全文検索の関連度ランキングの性能評価
 –   (INEXでの参加報告)                            9
Towards Practical Relevance Ranking
       for 10 million books (2)
• Solr標準のキーワード重み付け評価法
 – TF*IDF
 – 文書長による正規化が効きすぎている。
• 既存のランキング評価イニシアティブとの比較、経験
 – 書籍の文書長:760KB(10万語)
 – 多言語: “die hard” vs (ドイツ語)“die”
• 検索対象:
 – 書籍全体?章?節?ページ?
• 全文検索における最適化、テスト:
 – より自動化したい…
 – 求む、テストコレクション…
                                       10
n Characters in Search of an Author (1)
• 発表者:Jay Luker(ハーバード・スミソニアン天体
  物理学センター)
• 著者名検索の課題(あいまい検索)
 – ノイズを増やさず、できるだけヒットさせたい
 – 異体字(ウムラウト等)
 – 読み変え;改姓;…
• Solrインデックス用のフィルタを開発!


                                      11
(自分の経験から)
• 研究者総覧SAMURAIにおけるキーワード検索
 – http://samurai.nims.go.jp/search.html
 – Solrベース
 – キーワードの重み付け
    • 文書長の正規化は止めた
 – 氏名検索用に異体字展開
    • 高⇔髙, 﨑⇔崎, etc.
       – Cf. http://kanji-database.sourceforge.net/




                                                      12
まとめにかえて
• トピック
 – 次世代目録システム, OPAC 2.0的な話題は少なめに…
 – 技術的により深く先進的な( より狭い?)手法の開発
   • 学術研究レベルの技術評価や実装も
 – コミュニティの深化、多様性の強調 (Code of Conduct)
 – エモーション:Aaron Swartz
• 来年は?
 – 現在、開催都市の選考中(来月中には決定)
   • オースティン (TX), ノースカロライナ (NC)
 – 発表採択方式:プログラム委員会方式へ?
• JAPANからの貢献を
 – 日本での様々な試みも紹介を!反応はすごいです!
 – 国内でもカンファレンスを!           13

Más contenido relacionado

Destacado

Destacado (18)

TH Resume
TH ResumeTH Resume
TH Resume
 
Cover letter and resume (2)
Cover letter and resume  (2)Cover letter and resume  (2)
Cover letter and resume (2)
 
Samsung curved monitor
Samsung curved monitorSamsung curved monitor
Samsung curved monitor
 
Criteria #8 - TOC (6 files merged)
Criteria #8 - TOC (6 files merged)Criteria #8 - TOC (6 files merged)
Criteria #8 - TOC (6 files merged)
 
PCGM Certificate
PCGM CertificatePCGM Certificate
PCGM Certificate
 
20140508081007955 ingrid
20140508081007955 ingrid20140508081007955 ingrid
20140508081007955 ingrid
 
Herbario virtual
Herbario virtualHerbario virtual
Herbario virtual
 
Fritillaries5-1
Fritillaries5-1Fritillaries5-1
Fritillaries5-1
 
Laws Under Life Insurance Sector
Laws Under Life Insurance SectorLaws Under Life Insurance Sector
Laws Under Life Insurance Sector
 
Licencias creative commons
Licencias creative commonsLicencias creative commons
Licencias creative commons
 
Tendencias
Tendencias Tendencias
Tendencias
 
Internet
InternetInternet
Internet
 
April 2015 Posting List
April 2015 Posting ListApril 2015 Posting List
April 2015 Posting List
 
Lessons that most trainings will not teach you
Lessons that most trainings will not teach youLessons that most trainings will not teach you
Lessons that most trainings will not teach you
 
eduycativo
eduycativoeduycativo
eduycativo
 
Acta de presidentes de comites de aula 2014
Acta de presidentes de comites de aula 2014Acta de presidentes de comites de aula 2014
Acta de presidentes de comites de aula 2014
 
Historia de internet
Historia de internetHistoria de internet
Historia de internet
 
Correios - Marketing Direto - Eleições
Correios - Marketing Direto - EleiçõesCorreios - Marketing Direto - Eleições
Correios - Marketing Direto - Eleições
 

Similar a Code4Lib 2013参加報告

Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
Masao Takaku
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
Masao Takaku
 
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒントマイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
Yoji Kiyota
 
図書館総合展ネットアドバンス主催フォーラム 清田talk
図書館総合展ネットアドバンス主催フォーラム 清田talk図書館総合展ネットアドバンス主催フォーラム 清田talk
図書館総合展ネットアドバンス主催フォーラム 清田talk
Yoji Kiyota
 
100622 学術情報セミナー
100622 学術情報セミナー100622 学術情報セミナー
100622 学術情報セミナー
Shuhei Otani
 
TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)
真 岡本
 
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
20110305_Code4Lib2011参加報告会:田辺浩介参加報告20110305_Code4Lib2011参加報告会:田辺浩介参加報告
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
Code4Lib JAPAN
 
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
Ikki Ohmukai
 

Similar a Code4Lib 2013参加報告 (20)

Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
 
Web API入門
Web API入門Web API入門
Web API入門
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
 
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
 
HUSCAPのログ分析:真のアクセスログから
HUSCAPのログ分析:真のアクセスログからHUSCAPのログ分析:真のアクセスログから
HUSCAPのログ分析:真のアクセスログから
 
図書館でのSolrの使い方
図書館でのSolrの使い方図書館でのSolrの使い方
図書館でのSolrの使い方
 
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
 
20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
 
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒントマイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
 
物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例
 
図書館総合展ネットアドバンス主催フォーラム 清田talk
図書館総合展ネットアドバンス主催フォーラム 清田talk図書館総合展ネットアドバンス主催フォーラム 清田talk
図書館総合展ネットアドバンス主催フォーラム 清田talk
 
100622 学術情報セミナー
100622 学術情報セミナー100622 学術情報セミナー
100622 学術情報セミナー
 
Linked Dataの概要と課題
Linked Dataの概要と課題Linked Dataの概要と課題
Linked Dataの概要と課題
 
TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)TokaiHokurikuUlib(20111003)
TokaiHokurikuUlib(20111003)
 
データ共有基盤の構築に向けて
データ共有基盤の構築に向けてデータ共有基盤の構築に向けて
データ共有基盤の構築に向けて
 
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
 
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
20110305_Code4Lib2011参加報告会:田辺浩介参加報告20110305_Code4Lib2011参加報告会:田辺浩介参加報告
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
 
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
 

Más de Masao Takaku

「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから
Masao Takaku
 

Más de Masao Takaku (20)

研究室紹介
研究室紹介研究室紹介
研究室紹介
 
201709 研究室紹介 milk
201709 研究室紹介 milk201709 研究室紹介 milk
201709 研究室紹介 milk
 
20171002 takaku lab-intro
20171002 takaku lab-intro20171002 takaku lab-intro
20171002 takaku lab-intro
 
タスク重要
タスク重要タスク重要
タスク重要
 
教科書LOD
教科書LOD教科書LOD
教科書LOD
 
20161003 takaku lab-intro
20161003 takaku lab-intro20161003 takaku lab-intro
20161003 takaku lab-intro
 
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
 
20160424 wikipedia town-tsukubasan-takaku
20160424 wikipedia town-tsukubasan-takaku20160424 wikipedia town-tsukubasan-takaku
20160424 wikipedia town-tsukubasan-takaku
 
高久研究室の紹介(KLIS MILK 2015-10)
高久研究室の紹介(KLIS MILK 2015-10)高久研究室の紹介(KLIS MILK 2015-10)
高久研究室の紹介(KLIS MILK 2015-10)
 
研究室紹介・高久研究室
研究室紹介・高久研究室研究室紹介・高久研究室
研究室紹介・高久研究室
 
高久研究室・研究室紹介
高久研究室・研究室紹介高久研究室・研究室紹介
高久研究室・研究室紹介
 
JuNii2 Validator
JuNii2 ValidatorJuNii2 Validator
JuNii2 Validator
 
Wikipediaとは? Wikipediaに投稿する方法
Wikipediaとは? Wikipediaに投稿する方法Wikipediaとは? Wikipediaに投稿する方法
Wikipediaとは? Wikipediaに投稿する方法
 
研究室紹介:高久研究室
研究室紹介:高久研究室研究室紹介:高久研究室
研究室紹介:高久研究室
 
Helping Memory Institutions in the Networked Information Society
Helping Memory Institutions in the Networked Information SocietyHelping Memory Institutions in the Networked Information Society
Helping Memory Institutions in the Networked Information Society
 
20131123 enjukaigi
20131123 enjukaigi20131123 enjukaigi
20131123 enjukaigi
 
研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)研究室紹介 (情報経営・図書館主専攻)
研究室紹介 (情報経営・図書館主専攻)
 
研究室紹介
研究室紹介研究室紹介
研究室紹介
 
「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから
 
流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論流通する学術情報コンテンツ: 概論
流通する学術情報コンテンツ: 概論
 

Último

Último (7)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Code4Lib 2013参加報告

  • 1. Code4Lib 2013参加報告 (セッション聴講を中心に) 2013年3月24日(土) Code4Lib Conference 2013参加報告会 高久雅生 @tmasao 1
  • 2. 自己紹介:高久雅生 • 所属:物質・材料研究機構科学情報室 エンジニア – 研究所専門図書館におけるWeb系サービスの研究開発・運 用を担当 • 図書館管理システム, 研究者総覧, 機関リポジトリ • 専門分野:図書館情報学 – 情報検索、情報行動、電子図書館 • コミュニティ活動 – Code4Lib JAPANコアメンバー (2010-) – saveMLAKシステム担当 (2011-) – 情報科学技術協会『情報の科学と技術』編集委員 (2009-), 諮問委員 (2012-) – 情報知識学会 理事 (2008-) – ジャパンリンクセンター運営委員会システム技術分科会委 員 (2012-) 2
  • 3. Code4Libのコミュニティ • 北米の図書館エンジニアを中心としたコミュニティ – オープンソースソフトウェア (Open Source Software; OSS) – 大学図書館や議会図書館、図書館関連団体、企業等に 勤める図書館員やITエンジニア • 普段はメーリングリスト、IRC(チャット)での交流 • 地域コミュニティも – Code4Lib Midwest, NYC, New England, Maryland/Washington DC., Northwest, etc. – Code4Lib JAPAN 3
  • 4. Code4Libカンファレンスの概要 • 2006年から開始 • 毎年2月に開催 • 参加者:250名~400名 – 半数以上は初参加。 • 朝食、ランチを提供 • 発表:シングルトラックセッション – 基調講演(60分~) – 通常発表(15~20分): コミュニティの投票で選ばれる。 – ライトニングトーク(5分):カンファレンス当日にWikiで。 • 分科会(ブレイクアウトセッション) • プレカンファレンス(Tutorial, Workshops) 4
  • 5. 今年のカンファレンス - Code4Lib Conference 2013 - • 初めての大規模開催:250名→400名へ! • 大都市シカゴでの開催! • ストリーミングビデオ – https://archive.org/search.php?query=code4lib+ 2013 • (私自身は2010年から4年連続の参加) 5
  • 6. セッション技術レビュー (情報検索分野という観点から) • 検索技術や検索ツールの話題 – 文献検索での関連度順ランキング手法 – 大量電子書籍の全文検索のチューニング – あいまい検索 • 広く情報探索の話題 – 検索ログ/アクセスログの分析 – モバイル環境や統合検索の新しい検索インタフェース – 書架ブラウジングツール 6
  • 7. 今回の発表セッションから • 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books • (全文検索結果の関連度ランキング法) – n Characters in Search of an Author • (著者名のあいまい検索法) – Citation search in SOLR and second-order operators • (引用文献検索の方法) • 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience • (OPACのユーザインタフェースの改良とその考え方) – Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡) – Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonでのサーバログ分析用フレームワークの事例報告) 7
  • 8. 今回の発表セッションから • 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books • (全文検索結果の関連度ランキング法) – n Characters in Search of an Author • (著者名のあいまい検索法) – Citation search in SOLR and second-order operators • (引用文献検索の方法) • 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience • (OPACのユーザインタフェースの改良とその考え方) – Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡) – Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonのログ分析環境の事例報告) 8
  • 9. Towards Practical Relevance Ranking for 10 million books (1) • 発表者:Tom Burton-West(ミシガン大学図書館) • HathiTrustでの全文検索エンジンSolrを使った全文検 索サービスからの事例報告 – 70機関以上の図書館が収集した電子書籍リポジトリ – 約1,050万冊 – 450TB(画像:JPEG2000+TIFF, OCRテキスト, メタデータ) • 検索における課題 – 超大規模な文書群に対する全文検索 – 多言語(400言語超) – OCR性能のばらつき – 全文検索の関連度ランキングの性能評価 – (INEXでの参加報告) 9
  • 10. Towards Practical Relevance Ranking for 10 million books (2) • Solr標準のキーワード重み付け評価法 – TF*IDF – 文書長による正規化が効きすぎている。 • 既存のランキング評価イニシアティブとの比較、経験 – 書籍の文書長:760KB(10万語) – 多言語: “die hard” vs (ドイツ語)“die” • 検索対象: – 書籍全体?章?節?ページ? • 全文検索における最適化、テスト: – より自動化したい… – 求む、テストコレクション… 10
  • 11. n Characters in Search of an Author (1) • 発表者:Jay Luker(ハーバード・スミソニアン天体 物理学センター) • 著者名検索の課題(あいまい検索) – ノイズを増やさず、できるだけヒットさせたい – 異体字(ウムラウト等) – 読み変え;改姓;… • Solrインデックス用のフィルタを開発! 11
  • 12. (自分の経験から) • 研究者総覧SAMURAIにおけるキーワード検索 – http://samurai.nims.go.jp/search.html – Solrベース – キーワードの重み付け • 文書長の正規化は止めた – 氏名検索用に異体字展開 • 高⇔髙, 﨑⇔崎, etc. – Cf. http://kanji-database.sourceforge.net/ 12
  • 13. まとめにかえて • トピック – 次世代目録システム, OPAC 2.0的な話題は少なめに… – 技術的により深く先進的な( より狭い?)手法の開発 • 学術研究レベルの技術評価や実装も – コミュニティの深化、多様性の強調 (Code of Conduct) – エモーション:Aaron Swartz • 来年は? – 現在、開催都市の選考中(来月中には決定) • オースティン (TX), ノースカロライナ (NC) – 発表採択方式:プログラム委員会方式へ? • JAPANからの貢献を – 日本での様々な試みも紹介を!反応はすごいです! – 国内でもカンファレンスを! 13