SlideShare una empresa de Scribd logo
1 de 8
Descargar para leer sin conexión
入門セッション
●   テキストマイニング必須用語を15分程度で紹介
●   目的:初心者向け勉強会なので、基本用語から説
    明すべきだが、各発表者がいちいち説明している
    と重複しまくって非効率なので、最初にまとめる
●
    セッション後、質問タイムを設けます。お気軽に御
    質問下さい
●   ※あくまでざっくりした説明です



                              1
テキストマイニングの利用分野
1.マーケティング
  –   評判分析:売れ行き予測
  –   需要の抽出:今どんな商品が求められているか?
  –   自社製品の強み弱み:強みを伸ばし、弱点を補う
  –   インフルエンサーの特定:どこ/誰が影響力を持っているか
2.ナレッジの自動蓄積
  ●
      メール等の文書をデータベース化
  ●
      暗黙知→形式知
3.自然言語処理的領域
  –   検索、本文要約、IME、機械翻訳

                                    2
言語処理特有の技術
1.形態素解析:絶対使う。精度95%
2.構文解析:よく使う。精度80%
3.意味解析:たまに使う。研究段階。精度60%
4.文脈解析:研究段階(今回は説明省略




                          3
言語処理の技術 (1) 形態素解析
●   形態素とは:意味を持つ最小の文字列の単位
●   分かち書き:文を単語に分割すること
●   形態素解析:分かち書き+品詞付け+原形復元
●   日本語の分かち書きは難しい
    ●
        英語等と違って単語の切れ目がわからない
        –   「すもももももももものうち」→「李も桃も桃の内」○
        –   「東京都」→「東, 京都」?
●   MeCab:非常によく使われる形態素解析エンジン

                                        4
言語処理の技術 (2) 構文解析
●   構文解析:文の構造(係り受け等)を明らかにする
●   係り受け:ある文節がどの文節に作用するか
●   例文:「黒い大きな瞳の男の娘」
    ●   (肌の)黒い、大きな瞳の、男の娘?
    ●   黒い大きな瞳の、男の娘?
    ●
        黒い大きな瞳(さん)の男の娘?




                              5
言語処理の技術 (3) 意味解析
●   意味解析:評判分析等で使われる
●   「泣ける」という単語はポジティブ?ネガティブ?
     –   「映画」+泣ける⇒感動した!というポジティブ表現
     –   「試験」+泣ける⇒結果が悪かった!というネガティブ表現
     –   単語の意味は文脈によって変わる可能性がある
●   語義曖昧性解消:単語の複数の意味の中から、文
    に応じた語義を特定すること
●   単語情報単体で自然言語の全てを理解できるわけ
    ではない

                                       6
テキストの統計処理
●   単語:トークンとタイプ
      –   “nurture or nature? nurture passes nature”は何単語?
      –   6(節)と答えるのがトークン
      –   4(種類)と答えるのがタイプ
●   bag-of-words(BOW):文章の単語ベクトル表現
      –   柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
      –   {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
●   Nグラム:隣接するN単位の共起
      –   単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
      –   文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
                                                            7
頻出専門用語
●
    コーパス:言語の分析用例データ
●   素性:文法的な情報を表す特徴量(単語頻度等)
●   シソーラス:階層構造を持った類義語辞書
●   照応解析:代名詞が指しているものを明らかにする
●   省略補完:省略された主語などを補完する
●
    チャンキング:文の意味的な固まりを見つける技術
●   格フレーム:ある語の語義毎に共起する語の組
●   機械学習:人間の学習能力をコンピュータに持た
    せて、分類や判別、予測などを行う研究分野
     –   教師有り学習:与えられた正解例に沿う様、分類などを行う
                                       8
     –   教師無し学習:入力値から頻出/特殊なパターンを見出す

Más contenido relacionado

La actualidad más candente

自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?Keisuke NAKAMURA
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127博三 太田
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情Yuta Yamashita
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201博三 太田
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目schoowebcampus
 
たのっち流コラムの書き方
たのっち流コラムの書き方たのっち流コラムの書き方
たのっち流コラムの書き方Daiki Tanoguchi
 
正規表現入門
正規表現入門正規表現入門
正規表現入門thinca
 
プログラミング言語の習得順番について
プログラミング言語の習得順番についてプログラミング言語の習得順番について
プログラミング言語の習得順番についてichigats
 
09 manual writing20130611sample
09 manual writing20130611sample09 manual writing20130611sample
09 manual writing20130611sample和也 高山
 
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123博三 太田
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーションashizawa1 Ashizawa
 
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201博三 太田
 
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3Ultra Lightning Talk × 3
Ultra Lightning Talk × 3Nagi Teramo
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
第1回 スライドシェア用
第1回 スライドシェア用第1回 スライドシェア用
第1回 スライドシェア用AYUMI12
 
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based TranslationA Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based TranslationWataru Endo
 

La actualidad más candente (20)

自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?
 
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
 
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
 
Logics 18th ota_20211201
Logics 18th ota_20211201Logics 18th ota_20211201
Logics 18th ota_20211201
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
 
たのっち流コラムの書き方
たのっち流コラムの書き方たのっち流コラムの書き方
たのっち流コラムの書き方
 
正規表現入門
正規表現入門正規表現入門
正規表現入門
 
文章を企画・設計する
文章を企画・設計する文章を企画・設計する
文章を企画・設計する
 
プログラミング言語の習得順番について
プログラミング言語の習得順番についてプログラミング言語の習得順番について
プログラミング言語の習得順番について
 
09 manual writing20130611sample
09 manual writing20130611sample09 manual writing20130611sample
09 manual writing20130611sample
 
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
 
joint_seminar
joint_seminarjoint_seminar
joint_seminar
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
ロジカルコミュニケーション
ロジカルコミュニケーションロジカルコミュニケーション
ロジカルコミュニケーション
 
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
 
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3Ultra Lightning Talk × 3
Ultra Lightning Talk × 3
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
第1回 スライドシェア用
第1回 スライドシェア用第1回 スライドシェア用
第1回 スライドシェア用
 
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based TranslationA Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based Translation
 

Destacado

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際antibayesian 俺がS式だ
 
OpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WGOpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WGNat Sakimura
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響Kyoshiro Sugiyama
 
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2Taku Unno
 
Абрамов Н.Н.
Абрамов Н.Н.Абрамов Н.Н.
Абрамов Н.Н.cpii33
 
認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能Naoya Arakawa
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanoharaHiroshi Ono
 
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン PhillipKazeto Yamamoto
 
会話型ロボットを作った話
会話型ロボットを作った話会話型ロボットを作った話
会話型ロボットを作った話Kasai Nobuhiro
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現nkazuki
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理Wataru ONO
 

Destacado (20)

SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
神の言語による自然言語処理
神の言語による自然言語処理神の言語による自然言語処理
神の言語による自然言語処理
 
チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
OpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WGOpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WG
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
 
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2
 
Абрамов Н.Н.
Абрамов Н.Н.Абрамов Н.Н.
Абрамов Н.Н.
 
研究
研究研究
研究
 
認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能認知科学会サマースクール2015・人工知能と言語機能
認知科学会サマースクール2015・人工知能と言語機能
 
sigfpai2009_okanohara
sigfpai2009_okanoharasigfpai2009_okanohara
sigfpai2009_okanohara
 
質疑応答
質疑応答質疑応答
質疑応答
 
Qaシステム解説
Qaシステム解説Qaシステム解説
Qaシステム解説
 
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip
 
会話型ロボットを作った話
会話型ロボットを作った話会話型ロボットを作った話
会話型ロボットを作った話
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 

Similar a 第三回さくさくテキストマイニング勉強会 入門セッション

英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価Tomoyuki Kajiwara
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定Shuyo Nakatani
 
Tsubota 20120915
Tsubota 20120915Tsubota 20120915
Tsubota 20120915nextedujimu
 
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)mametter
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察Yuichiroh Matsubayashi
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)Yoshinari Fujinuma
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315隆浩 安
 
プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015Kazuhito Yamato
 

Similar a 第三回さくさくテキストマイニング勉強会 入門セッション (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
1 3-2
1 3-21 3-2
1 3-2
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
Tsubota 20120915
Tsubota 20120915Tsubota 20120915
Tsubota 20120915
 
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する述語項構造アノテーション仕様の考察日本語文章に対する述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Evaluation
EvaluationEvaluation
Evaluation
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
形態素解析
形態素解析形態素解析
形態素解析
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315
 
プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015プロソディの捉え方とその指導_06.03.2015
プロソディの捉え方とその指導_06.03.2015
 

第三回さくさくテキストマイニング勉強会 入門セッション

  • 1. 入門セッション ● テキストマイニング必須用語を15分程度で紹介 ● 目的:初心者向け勉強会なので、基本用語から説 明すべきだが、各発表者がいちいち説明している と重複しまくって非効率なので、最初にまとめる ● セッション後、質問タイムを設けます。お気軽に御 質問下さい ● ※あくまでざっくりした説明です 1
  • 2. テキストマイニングの利用分野 1.マーケティング – 評判分析:売れ行き予測 – 需要の抽出:今どんな商品が求められているか? – 自社製品の強み弱み:強みを伸ばし、弱点を補う – インフルエンサーの特定:どこ/誰が影響力を持っているか 2.ナレッジの自動蓄積 ● メール等の文書をデータベース化 ● 暗黙知→形式知 3.自然言語処理的領域 – 検索、本文要約、IME、機械翻訳 2
  • 4. 言語処理の技術 (1) 形態素解析 ● 形態素とは:意味を持つ最小の文字列の単位 ● 分かち書き:文を単語に分割すること ● 形態素解析:分かち書き+品詞付け+原形復元 ● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」? ● MeCab:非常によく使われる形態素解析エンジン 4
  • 5. 言語処理の技術 (2) 構文解析 ● 構文解析:文の構造(係り受け等)を明らかにする ● 係り受け:ある文節がどの文節に作用するか ● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  • 6. 言語処理の技術 (3) 意味解析 ● 意味解析:評判分析等で使われる ● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある ● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること ● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  • 7. テキストの統計処理 ● 単語:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ ● bag-of-words(BOW):文章の単語ベクトル表現 – 柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} – {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ} ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) 7
  • 8. 頻出専門用語 ● コーパス:言語の分析用例データ ● 素性:文法的な情報を表す特徴量(単語頻度等) ● シソーラス:階層構造を持った類義語辞書 ● 照応解析:代名詞が指しているものを明らかにする ● 省略補完:省略された主語などを補完する ● チャンキング:文の意味的な固まりを見つける技術 ● 格フレーム:ある語の語義毎に共起する語の組 ● 機械学習:人間の学習能力をコンピュータに持た せて、分類や判別、予測などを行う研究分野 – 教師有り学習:与えられた正解例に沿う様、分類などを行う 8 – 教師無し学習:入力値から頻出/特殊なパターンを見出す