Más contenido relacionado
Similar a オープンソースソフトウェア検索サーバ Solr入門 (9)
Más de Open Source Software Association of Japan (20)
オープンソースソフトウェア検索サーバ Solr入門
- 2. u 所属:㈱シーマーク
u 氏名:大谷 純
u twitter:@johtani
u ブログ:
http://johtani.jugem.jp
u 「Apache Solr入門」
の著者の一人
u lucene-gosenのcommitter
- 3. u 全文検索とは
u Solrの各種機能
u Luceneにまつわるエコシステム
- 4. u 全文検索とは
u Solrの各種機能
u Luceneにまつわるエコシステム
- 6. 検索クエリ
検索エンジン
インデックス
検索結果
- 7. u Solr:Lucene(全文検索ライブラリ)を活用した検
索エンジンサーバ
u ApacheプロジェクトのOSS
u Javaで実装
u 検索補助のための機能がいっぱい
u 転置インデックス方式による全文検索
- 9. 1
カツオはサザエの弟
対象とする文章(ドキュメント)に
2
サザエはワカメの姉
IDを付与
カツオ
1
は
1
サザエ
1
の 1
弟 1
文章を単語に分割し、
サザエ
2
は
2
ワカメ
2
の 2
姉 2
単語:ドキュメントIDと整理
の
1
2
ワカメ
2
単語をキー、ドキュメントIDの
は
1
2
弟 1
配列を値とする表を作成
=
カツオ
1
姉 2
転置インデックス
サザエ
1
2
- 10. 転置インデックス
の
1
2
検索クエリ
検索結果
は
1
2
カツオ
カツオ
1
1
AND
サザエ
1
2
サザエ
ワカメ
2
弟 1
姉 2
- 11. u フィールド:1転置インデックスの定義
u スキーマ:フィールドを定義する設定
Solrは大きな1つのテーブル(スキーマ)に複数
のカラム(フィールド)
- 12. u 全文検索とは
u Solrの各種機能
u Luceneにまつわるエコシステム
- 13. u AND、OR、NOTによる検索
u 範囲検索
u スコアによるソート
u 特定フィールドによるソート
- 14. u 検索結果の分類の表示
絞り込み検索の候補として表示
u 複数のファセットを1回の検索で
取得可能
u 項目ごとのドキュメント数も取得
- 15. u 検索キーワードがどの部分にヒットしたか
u 検索結果の要約表示
u キーワードの強調表示
- 16. u マスタ/スレーブ構成
u 検索の負荷を分散
検索
slave
登録・更新
master
レプリケート
検索
slave
- 17. u 複数のインデックスを1つのインデックスとして検索
u 大量データに対してスケールアウトで対応可能
Solr
検索
Solr
index
検索
Solr
index
- 18. u スペルチェック(SpellCheck)
u レコメンド(MoreLikeThis)
u スコアブースト(QueryElevation)
- 19. u マルチコア
u 類義語辞書(Synonym)
u 各種言語向け機能
言語判定、各言語向けのTokenizer
- 20. u 全文検索とは
u Solrの各種機能
u Luceneにまつわるエコシステム
- 21. u Luceneは様々なOSSに利用されている
u Solr(検索エンジンサーバ)、Nutch(クローラ+
検索エンジン)
u Luceneを発端にHadoopが作られた
u Nutchの仕組みを大規模対応するために実装さ
れたのがHadoop