SlideShare a Scribd company logo
Enviar búsqueda
Cargar
Iniciar sesión
Registrarse
Solr から使う OpenNLP の日本語固有表現抽出
Denunciar
Koji Sekiguchi
Seguir
RONDHUIT Co.,Ltd. - Founder & CEO en RONDHUIT Co.,Ltd.
20 de Jul de 2018
•
0 recomendaciones
•
3,697 vistas
1
de
14
Solr から使う OpenNLP の日本語固有表現抽出
20 de Jul de 2018
•
0 recomendaciones
•
3,697 vistas
Descargar ahora
Descargar para leer sin conexión
Denunciar
Internet
1.9.0 から日本語が正式サポートになったApache OpenNLPを、Apache Solr から便利に使いましょう!
Koji Sekiguchi
Seguir
RONDHUIT Co.,Ltd. - Founder & CEO en RONDHUIT Co.,Ltd.
Recomendados
失敗から学ぶ機械学習応用
Hiroyuki Masuda
51K vistas
•
90 diapositivas
合成経路探索 -論文まとめ- (PFN中郷孝祐)
Preferred Networks
22.7K vistas
•
72 diapositivas
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
4.2K vistas
•
48 diapositivas
グラフニューラルネットワーク入門
ryosuke-kojima
50K vistas
•
65 diapositivas
Singularityで分散深層学習
Hitoshi Sato
9.3K vistas
•
31 diapositivas
情報検索とゼロショット学習
kt.mako
2.1K vistas
•
39 diapositivas
Más contenido relacionado
La actualidad más candente
FastAPIを使って 機械学習モデルをapi化してみた
Sho Tanaka
1.2K vistas
•
15 diapositivas
Python におけるドメイン駆動設計(戦術面)の勘どころ
Junya Hayashi
17.3K vistas
•
33 diapositivas
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
465 vistas
•
36 diapositivas
モデル高速化百選
Yusuke Uchida
24.5K vistas
•
64 diapositivas
TensorFlow計算グラフ最適化処理
Atsushi Nukariya
4K vistas
•
52 diapositivas
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
44.1K vistas
•
15 diapositivas
La actualidad más candente
(20)
FastAPIを使って 機械学習モデルをapi化してみた
Sho Tanaka
•
1.2K vistas
Python におけるドメイン駆動設計(戦術面)の勘どころ
Junya Hayashi
•
17.3K vistas
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
•
465 vistas
モデル高速化百選
Yusuke Uchida
•
24.5K vistas
TensorFlow計算グラフ最適化処理
Atsushi Nukariya
•
4K vistas
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
•
44.1K vistas
Machine learning CI/CD with OSS
yusuke shibui
•
2.3K vistas
Graph Attention Network
Takahiro Kubo
•
15K vistas
RDF Semantic Graph「RDF 超入門」
オラクルエンジニア通信
•
9.9K vistas
Kubernetesによる機械学習基盤への挑戦
Preferred Networks
•
14.5K vistas
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
•
2.3K vistas
Triplet Loss 徹底解説
tancoro
•
11.2K vistas
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
•
72.1K vistas
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
•
3.6K vistas
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
•
21K vistas
AbemaTVにおける推薦システム
cyberagent
•
2.4K vistas
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
•
12.5K vistas
ナレッジグラフ/LOD利用技術の入門(後編)
KnowledgeGraph
•
1.1K vistas
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
•
47.3K vistas
機械学習モデルのサービングとは?
Sho Tanaka
•
914 vistas
Similar a Solr から使う OpenNLP の日本語固有表現抽出
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
2.7K vistas
•
24 diapositivas
オープンソース入門
VirtualTech Japan Inc./Begi.net Inc.
968 vistas
•
17 diapositivas
20180725 Learning To Rank meetup
Yasufumi Mizoguchi
1.6K vistas
•
18 diapositivas
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
kulibrarians
804 vistas
•
36 diapositivas
OpenStack環境構築支援について
Satoshi Konno
988 vistas
•
22 diapositivas
頑張りすぎないScala
takezoe
10K vistas
•
43 diapositivas
Similar a Solr から使う OpenNLP の日本語固有表現抽出
(17)
Learning-to-Rank meetup Vol. 1
Koji Sekiguchi
•
2.7K vistas
オープンソース入門
VirtualTech Japan Inc./Begi.net Inc.
•
968 vistas
20180725 Learning To Rank meetup
Yasufumi Mizoguchi
•
1.6K vistas
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
kulibrarians
•
804 vistas
OpenStack環境構築支援について
Satoshi Konno
•
988 vistas
頑張りすぎないScala
takezoe
•
10K vistas
solr勉強会資料
Atsushi Takayasu
•
6.3K vistas
JJUG CCC 2014 ATL
Recruit Technologies
•
2.6K vistas
Reading 1st dRuby
Koichi ITO
•
3.6K vistas
Langsmith OpeLa handmade self-hosted OS and LPS
uchan_nos
•
826 vistas
Laravel_オープンソースカンファレンスhokkaido_JP_2014
Yuuki Takezawa
•
4.4K vistas
おとなのテキストマイニング
Munenori Sugimura
•
3.2K vistas
システムパフォーマンス勉強会#4
shingo suzuki
•
784 vistas
システムパフォーマンス勉強会#4
shingo suzuki
•
755 vistas
Code4Lib 2013参加報告
Masao Takaku
•
1.3K vistas
20150207 何故scalaを選んだのか
Katsunori Kanda
•
5.1K vistas
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
•
3.3K vistas
Más de Koji Sekiguchi
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
96 vistas
•
14 diapositivas
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
2.1K vistas
•
10 diapositivas
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
3.6K vistas
•
86 diapositivas
An Introduction to NLP4L
Koji Sekiguchi
3.7K vistas
•
55 diapositivas
Nlp4 l intro-20150513
Koji Sekiguchi
7.6K vistas
•
21 diapositivas
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
5.3K vistas
•
24 diapositivas
Más de Koji Sekiguchi
(20)
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
Koji Sekiguchi
•
96 vistas
Lucene 6819-good-bye-index-time-boost
Koji Sekiguchi
•
2.1K vistas
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
Koji Sekiguchi
•
3.6K vistas
An Introduction to NLP4L
Koji Sekiguchi
•
3.7K vistas
Nlp4 l intro-20150513
Koji Sekiguchi
•
7.6K vistas
コーパス学習による Apache Solr の徹底活用
Koji Sekiguchi
•
5.3K vistas
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
•
3.9K vistas
LUCENE-5252 NGramSynonymTokenizer
Koji Sekiguchi
•
3.3K vistas
情報検索におけるランキング計算の紹介
Koji Sekiguchi
•
3.1K vistas
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Koji Sekiguchi
•
2.6K vistas
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Koji Sekiguchi
•
1.8K vistas
Html noise reduction
Koji Sekiguchi
•
2.2K vistas
Lucene terms extraction
Koji Sekiguchi
•
8.4K vistas
Visualize terms network in Lucene index
Koji Sekiguchi
•
2.3K vistas
WikipediaからのSolr用類義語辞書の自動生成
Koji Sekiguchi
•
12.6K vistas
HMM viterbi
Koji Sekiguchi
•
15.2K vistas
NLP x Lucene/Solr
Koji Sekiguchi
•
2.5K vistas
OpenNLP - MEM and Perceptron
Koji Sekiguchi
•
5.1K vistas
自然言語処理における機械学習による曖昧性解消入門
Koji Sekiguchi
•
8.9K vistas
Similarity functions in Lucene 4.0
Koji Sekiguchi
•
8.5K vistas
Solr から使う OpenNLP の日本語固有表現抽出
1.
Solrから使うOpenNLPの 固有表現抽出 株式会社ロンウイット 関口宏司 @kojisays
2.
自己紹介 • ロンウイット 創業者兼社長 •
Apache Lucene/Solr/OpenNLP コミッター兼PMCメンバー、 ASFメンバー ASFメンバーって・・・? https://www.rondhuit.com/miracle-org-asf.html • 書籍執筆&監修 • Apache Lucene/Solr, Apache Ant, etc. 2
3.
Apache OpenNLP • 基本的なNLPタスクのツールキット(教師あり機械学習) •
[分類] 言語判別、文書分類 • [系列ラベリング] 文識別、単語分割、品詞タグ付け、固有表 現抽出、チャンク化 • [その他NLP] レンマ化、構文解析 • 海外ではビジネス利用もされている(Apache License) • Java API。柔軟な素性設定 3
4.
系列ラベリング • データ系列の入力に対し、クラスの系列を出力 • 品詞タグ付け、固有表現抽出 •
普通の分類問題とは異なる • 普通の分類問題:F → C • 系列ラベリング:F1F2…Fn → C1C2…Cn • ラベルが系列内の他のラベルに依存 ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 F1 F2 F3 F4 F5 Time flies like an arrow. [名詞] [動詞] [前置詞] [冠詞] [名詞] C1 C2 C3 C4 C5 直前が名詞だと動詞に変わる 4
5.
• 通常の分類器の逐次適用(←OpenNLPが採用) • Ciの推定に、Fi,
Fi-1, Fi+1やCi-1などを用いる • その他の解き方:HMM、CRF 系列ラベリング問題の解き方 ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 5 F1 F2 F3 F4 F5 … C1 C2 C3 C4 C5 …
6.
固有表現抽出 • 日本語などの自然言語で書かれたテキストから、固有名詞 を属性付き(固有名詞タイプ)で抽出するNLPタスクの一 種 • デモ(用意するもの) •
apache-opennlp-1.9.0-bin.tar.gz • rondhuit-ja-ner-1.0.0.zip ※ 株式会社ロンウイットの研修コース「Apache Mahout & Sparkではじめる機械学習」より抜粋。 6
7.
OpenNLPの 日本語対応への道 • 洋モノのNLPツールにありがちな問題 • 「テキストはあらかじめ単語分割されているでしょ、 普通」 ⇒
Lucene/Solr はよくできてる!! • 日本語に関心がない・・・ • みんな忙しい・・・ 7
8.
OpenNLPの 日本語対応の道• 日本語と英語の形態素解析の違い • 英語:(形態素を決める+)品詞を決める illegaly
= il + legal + ly ← まれ。多くは「形態素」≒「単語」なのでここまでやらない • 日本語:単語境界を決める+品詞を決める • ようやく素性としてのひらがなとカタカナ字種を識別させることに成功! (1.9.0) isentthemachine i(PPSS) sent(VBD) the(AT) machine(NP) i(PPSS) sent(VBD) them(PPO) a(AT) chine(NP) 8
9.
Solr+OpenNLP • OpenNLPExtractNamedEntitiesUpdateProcessorFactory • Solr
7.3.0 以降(LUCENE-2899) • 現状、複数固有表現タイプ対応に不具合あり • ファセットでの利用 9
10.
q=ハワイ 予算で絞り込む 10〜15万円 出発地で絞り込む 羽田空港 Solrのファセット & 絞り込み検索 10 ユーザが欲しい 文書集合 検索システムが 返す文書集合
11.
構造化文書 ツアー名 価格 空港 ハワイオアフ島 ダイヤモンドヘッド 28万円
成田空港 ハワイワイキキ ビーチ3泊5日 13万円 羽田空港 11
12.
インデクシング時に 文書を構造化 記事 イベント 人名
地名 ・・・ 安倍⾸相は12⽇⽇ 、甲府市で開かれた自民党 ゴルフコンペで... ゴルフコンペ 安倍 甲府市 注目はグランプリファイナルで4連覇を達成し た羽生。年末の全日本選手権はインフルエンザ による影響で欠場した。その後静養し、カナダ ・トロントへ向け出発。 グランプリファイ ナル 全日本選手権 羽生 カナダ トロント 人名:安倍 地名:甲府市 q=ゴルフ 「記事」から自動抽出されたキーワード 12
13.
まとめ • Apache OpenNLP
の業務利用拡大に期待 • 日本語の場合、形態素解析器利用前提で(1.9.0〜) • 応用例 • 情報検索:検索精度向上 • ニュース記事キーワード抽出、自動タグ付け、・・・ 13
14.
参考 • Apache OpenNLP •
Web: https://opennlp.apache.org/ • doc: https://opennlp.apache.org/docs/1.9.0/manual/opennlp.html • ロンウイットホームページ • 最新 Apache OpenNLP 1.9.0 で日本語固有表現抽出を試す https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html 14
Notas del editor
ロゴについて(OPENNLP-6) 本:関口のアイディア。辞書またはモデルを表す 羽ペン:Tommasoのアイディア。
word2vec もそう。