SlideShare una empresa de Scribd logo
1 de 10
NLP
    ×
Lucene/Solr
 関口宏司@ロンウイット
Why NLP×Lucene/Solr ?

                               NLP(自然言語処理)とLucene/Solr(検索
                                エンジン)を組み合わせると。。。
                                   より便利に!
                     2
                                   よりかしこく!
                                   より楽に!




2012 (c) RONDHUIT Co.,LTD
多機能な最近のSolr
                               表記揺れ対策             カスタムランキング

                              類義語検索
                                                地理検索
                     3               ハイライト

                                        キーワード検索        サジェスチョン
                            クラスタリング

                                                       言語判別
                            類似文書検索      インデクシング

                                                  形態素解析器
                            ファセット
                                         グループ化検索
                                     もしかして。。。
2012 (c) RONDHUIT Co.,LTD
使いこなすには苦労も。。。
                               表記揺れ対策                   カスタムランキング
                                              辞書整備
                              類義語検索
                                                             データソース
                                                     地理検索      収集
                     4               ハイライト

                                              キーワード検索       サジェスチョン
                            クラスタリング

                                                            言語判別
                            類似文書検索            インデクシング

                                     非構造化文書
                                                        形態素解析器
                            ファセット
                                                            新語辞書登録
                                                グループ化検索
                                     もしかして。。。
2012 (c) RONDHUIT Co.,LTD
精度/再現性は?
                                表記揺れ対策               カスタムランキング

                              類義語検索
                                                地理検索
                     5               ハイライト
                              精度?
                                           キーワード検索      サジェスチョン
                            クラスタリング
                                     精度?
                                                         言語判別
                            類似文書検索         インデクシング

                                                     形態素解析器
                            ファセット
                                                         検索漏れ
                                            グループ化検索
                              再現率?
                                     もしかして。。。
2012 (c) RONDHUIT Co.,LTD
さらに便利に!
                                   表記揺れ対策                  カスタムランキング

                               類義語検索                               好評価の
                                                                  記事を上位に

                                                    地理検索
                     6               ハイライト             自動フィールド
                            文書要約
                                                         選択

                                            キーワード検索           サジェスチョン
                            クラスタリング               質問応答
                                                 (自然文検索)


                                                                 言語判別
                            類似文書検索          インデクシング
                                        自動文書分類
                                                           形態素解析器
                             ファセット
                                             グループ化検索
                                     もしかして。。。
2012 (c) RONDHUIT Co.,LTD
NLPの導入

                               専門用語抽出

                               固有表現抽出
                     7
                               文書分類

                               類義語辞書生成

                               (検索エンジン向け)形態素解析器

                               共起分析

                               意味解析

                               文書要約


2012 (c) RONDHUIT Co.,LTD
(例)専門用語抽出



                     8




2012 (c) RONDHUIT Co.,LTD
(例)固有表現抽出

                                                民主党の前原外相は6日、
                                                海江田経財相と茨城県で
                                                会食した。
                     9




                     NE     body      _org   _per   _loc   _date
                            民主党の前原           前原
                     あり     外相は6日、…   民主党
                                             海江田
                                                    茨城県    6日

                            民主党の前原
                     なし     外相は6日、…      -      -      -        -


2012 (c) RONDHUIT Co.,LTD
おまけ。。。

                               (類似)画像検索。。。


                     10




2012 (c) RONDHUIT Co.,LTD

Más contenido relacionado

Más de Koji Sekiguchi

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdfKoji Sekiguchi
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Koji Sekiguchi
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Koji Sekiguchi
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostKoji Sekiguchi
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)Koji Sekiguchi
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4LKoji Sekiguchi
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用までKoji Sekiguchi
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerKoji Sekiguchi
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介Koji Sekiguchi
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出Koji Sekiguchi
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンKoji Sekiguchi
 
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成Koji Sekiguchi
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-storyKoji Sekiguchi
 
TodaysOSSSearchEngines
TodaysOSSSearchEnginesTodaysOSSSearchEngines
TodaysOSSSearchEnginesKoji Sekiguchi
 

Más de Koji Sekiguchi (19)

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4L
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
 
Html noise reduction
Html noise reductionHtml noise reduction
Html noise reduction
 
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
 
HMM viterbi
HMM viterbiHMM viterbi
HMM viterbi
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-story
 
Lu solr32 34-20110912
Lu solr32 34-20110912Lu solr32 34-20110912
Lu solr32 34-20110912
 
Lucene/Solr 3.1
Lucene/Solr 3.1Lucene/Solr 3.1
Lucene/Solr 3.1
 
TodaysOSSSearchEngines
TodaysOSSSearchEnginesTodaysOSSSearchEngines
TodaysOSSSearchEngines
 
Lu solr 20100709
Lu solr 20100709Lu solr 20100709
Lu solr 20100709
 

NLP x Lucene/Solr

  • 1. NLP × Lucene/Solr 関口宏司@ロンウイット
  • 2. Why NLP×Lucene/Solr ?  NLP(自然言語処理)とLucene/Solr(検索 エンジン)を組み合わせると。。。  より便利に! 2  よりかしこく!  より楽に! 2012 (c) RONDHUIT Co.,LTD
  • 3. 多機能な最近のSolr 表記揺れ対策 カスタムランキング 類義語検索 地理検索 3 ハイライト キーワード検索 サジェスチョン クラスタリング 言語判別 類似文書検索 インデクシング 形態素解析器 ファセット グループ化検索 もしかして。。。 2012 (c) RONDHUIT Co.,LTD
  • 4. 使いこなすには苦労も。。。 表記揺れ対策 カスタムランキング 辞書整備 類義語検索 データソース 地理検索 収集 4 ハイライト キーワード検索 サジェスチョン クラスタリング 言語判別 類似文書検索 インデクシング 非構造化文書 形態素解析器 ファセット 新語辞書登録 グループ化検索 もしかして。。。 2012 (c) RONDHUIT Co.,LTD
  • 5. 精度/再現性は? 表記揺れ対策 カスタムランキング 類義語検索 地理検索 5 ハイライト 精度? キーワード検索 サジェスチョン クラスタリング 精度? 言語判別 類似文書検索 インデクシング 形態素解析器 ファセット 検索漏れ グループ化検索 再現率? もしかして。。。 2012 (c) RONDHUIT Co.,LTD
  • 6. さらに便利に! 表記揺れ対策 カスタムランキング 類義語検索 好評価の 記事を上位に 地理検索 6 ハイライト 自動フィールド 文書要約 選択 キーワード検索 サジェスチョン クラスタリング 質問応答 (自然文検索) 言語判別 類似文書検索 インデクシング 自動文書分類 形態素解析器 ファセット グループ化検索 もしかして。。。 2012 (c) RONDHUIT Co.,LTD
  • 7. NLPの導入  専門用語抽出  固有表現抽出 7  文書分類  類義語辞書生成  (検索エンジン向け)形態素解析器  共起分析  意味解析  文書要約 2012 (c) RONDHUIT Co.,LTD
  • 8. (例)専門用語抽出 8 2012 (c) RONDHUIT Co.,LTD
  • 9. (例)固有表現抽出 民主党の前原外相は6日、 海江田経財相と茨城県で 会食した。 9 NE body _org _per _loc _date 民主党の前原 前原 あり 外相は6日、… 民主党 海江田 茨城県 6日 民主党の前原 なし 外相は6日、… - - - - 2012 (c) RONDHUIT Co.,LTD
  • 10. おまけ。。。  (類似)画像検索。。。 10 2012 (c) RONDHUIT Co.,LTD