SlideShare a Scribd company logo
Enviar búsqueda
Cargar
Iniciar sesión
Registrarse
LUCENE-5252 NGramSynonymTokenizer
Denunciar
Koji Sekiguchi
Seguir
RONDHUIT Co.,Ltd. - Founder & CEO en RONDHUIT Co.,Ltd.
2 de Oct de 2013
•
0 recomendaciones
•
3,295 vistas
1
de
7
LUCENE-5252 NGramSynonymTokenizer
2 de Oct de 2013
•
0 recomendaciones
•
3,295 vistas
Descargar ahora
Descargar para leer sin conexión
Denunciar
Tecnología
Koji Sekiguchi
Seguir
RONDHUIT Co.,Ltd. - Founder & CEO en RONDHUIT Co.,Ltd.
Recomendados
Codefor numazu(第6回)
Hiroyuki Ichikawa
101 vistas
•
10 diapositivas
ほんとにあったphantomjsのコワい話
Kohki Nakashima
10.9K vistas
•
24 diapositivas
Similarity functions in Lucene 4.0
Koji Sekiguchi
8.5K vistas
•
24 diapositivas
Solr AutoComplete and Did You Mean?
Minoru Osuka
6.9K vistas
•
14 diapositivas
徹底比較!! Heliosearch vs Solr
Ebisawa Shinobu
4.2K vistas
•
22 diapositivas
類義語検索と類義語ハイライト
Shinichiro Abe
8K vistas
•
18 diapositivas
Más contenido relacionado
Más de Koji Sekiguchi
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
90 vistas
•
14 diapositivas
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
3.7K vistas
•
14 diapositivas
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
2.7K vistas
•
24 diapositivas
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
2.1K vistas
•
10 diapositivas
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
3.3K vistas
•
25 diapositivas
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
3.6K vistas
•
86 diapositivas
Más de Koji Sekiguchi
(20)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
•
90 vistas
Solr から使う OpenNLP の日本語固有表現抽出
Koji Sekiguchi
•
3.7K vistas
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
•
2.7K vistas
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
•
2.1K vistas
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
•
3.3K vistas
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
•
3.6K vistas
An Introduction to NLP4L
Koji Sekiguchi
•
3.7K vistas
Nlp4 l intro-20150513
Koji Sekiguchi
•
7.6K vistas
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
•
5.3K vistas
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
•
3.9K vistas
情報検索におけるランキング計算の紹介
Koji Sekiguchi
•
3.1K vistas
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
•
2.6K vistas
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
•
1.8K vistas
Html noise reduction
Koji Sekiguchi
•
2.2K vistas
Lucene terms extraction
Koji Sekiguchi
•
8.4K vistas
Visualize terms network in Lucene index
Koji Sekiguchi
•
2.3K vistas
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
•
12.6K vistas
HMM viterbi
Koji Sekiguchi
•
15.2K vistas
NLP x Lucene/Solr
Koji Sekiguchi
•
2.5K vistas
OpenNLP - MEM and Perceptron
Koji Sekiguchi
•
5.1K vistas
Último
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
43 vistas
•
20 diapositivas
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
151 vistas
•
16 diapositivas
GraphQLはどんな時に使うか
Yutaka Tachibana
8 vistas
•
37 diapositivas
テスト自動化.pdf
ssuserf8ea02
23 vistas
•
26 diapositivas
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
108 vistas
•
31 diapositivas
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
27 vistas
•
23 diapositivas
Último
(12)
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
43 vistas
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
151 vistas
GraphQLはどんな時に使うか
Yutaka Tachibana
•
8 vistas
テスト自動化.pdf
ssuserf8ea02
•
23 vistas
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
108 vistas
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
•
27 vistas
画像生成AIの問題点
iPride Co., Ltd.
•
10 vistas
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
39 vistas
gtk4_gem_usage.pdf
ssuser0ef4681
•
14 vistas
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
134 vistas
CatBoost on GPU のひみつ
Takuji Tahara
•
495 vistas
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 vistas
LUCENE-5252 NGramSynonymTokenizer
1.
LUCENE-5252 NGramSynonymTokenizer 関⼝口宏司@ロンウイット
2.
What's NGramSynonymTokenizer? •
Tokenizerレベルでシノニム展開する NGramTokenizer – minGramSize==maxGramSizeに限定 • LuceneのFSTをシノニム辞書として利⽤用 • 現⾏行行のNGramTokenizer+SynonymFilter の動作に苦しめられる多くの⽇日本⼈人/⽇日 本語ユーザの救世主となる!? – Lucene/Solr, ElasticSearch Copyright (c) 2013 RONDHUIT 2
3.
現⾏行行NGram+Synonymの問題点 • Nより短いシノニム設定ができない
• ソースキーワードがシノニム展開された とき、トークン数が異なると正しいオフ セットが設定できない • シノニム設定することでかえって再現率 を低下させてしまうパターンが存在する – シノニム辞書:東京, とうきょう – ⽂文書:東京駅 – クエリ:東京駅 Copyright (c) 2013 RONDHUIT 3
4.
NGramSynonymTokenizerによる解決 • NGramSynonymTokenizerがシノニム辞 書を読み込み、FSTに保持
• n-gram分割する前に辞書登録された⽂文字 列があるか調べ、あればその部分はn- gram分割しない • 辞書登録された⽂文字列の前後は、次のよ うに平⾏行行四辺形を描くようにトークンを ⽣生成する – シノニム辞書:東京, とうきょう – ⼊入⼒力力⽂文:明⽇日東京駅へ Copyright (c) 2013 RONDHUIT 4 明⽇日 東京 駅 ⽇日 とうきょう 駅へ 青字はposi%onIncrements=0で出力
5.
FSTによるシノニム辞書実装 • 現⾏行行のSynonymMapを流⽤用
Copyright (c) 2013 RONDHUIT 5 aa, a2 aaa, a3 aaaa => a4 2 a a a a 3 :最終状態 FST<BytesRef> 出⼒力力の型 IntsRef INPUT_TYPE.BYTE4 ユニコードコードポイント [5 0 1] [5 2 3] [3 4] [5 0 1] [5 2 3] words : BytesRefHash ord BytesRef -------------------- 0 aa 1 a2 2 aaa 3 a3 4 a4 SynonymMap 下図の出⼒力力: * [M N]にて、M=(N.length) << 1 + 1 * Nはwordsにおけるordの配列
6.
アルゴリズム Copyright (c)
2013 RONDHUIT 6 PriorityQueue<MyToken> 明⽇日東京駅へ⾏行行く。 鎧を着けて。 Reader 明⽇日東京駅へ⾏行行く。 getNextBlock() 明⽇日{東京|とうきょう}駅へ⾏行行く。 consultDictionary() 明⽇日 駅 ⽇日 駅へ 東京 へ⾏行行 とうきょう ⾏行行く く。 tokenizeWholeBlock() getNextUniqueToken()
7.
schema.xml Copyright (c)
2013 RONDHUIT 7 indexMode="true" : 平⾏行行四辺形出⼒力力を⾏行行う indexMode="false" : 平⾏行行四辺形出⼒力力を⾏行行わない