SlideShare a Scribd company logo
1 of 19
Download to read offline
N-gram

                  2011/09/22
         NLP   ⼿手     6


                       ,      ⼤大
          {unno, hillbig}@prefered.jp
l    N
          ⾏行行

l 


l              ⾒見見      ⾏行行

l        ⽇日          ⾏行行
⽂文             ⽤用


           ⼤大


                ⼤大

                ⼤大



l                        ⼊入
l         ⾶飛
l 


l    ⼀一⽅方             ⾼高
l 
      l     ⾔言   ⽂文
⼤大


l 
      l 
      l 
l 
      l 
      l 




l    N
⻑⾧長

l                    ⽂文        ⼀一

l 


l           ⽤用
      l    ⼤大 ⾻骨     ⾻骨
      l 

l          ⽤用
      l 

      l                   ⼤大
l 
      l            ⼤大⾬雨
      l 
Eisner                                      [Eisner96]


                           A           B       C       D            E       root




                                                       =
 A          D   +     B            D       +       B       C        +   D      root   +   D   E


l                   ⽊木 T                                      S(T)

l    S(T) = ∑(m, h)           T   s(m, h)
      l    (m, h)     T                                       ⾮非
l    S(T)           ⼤大                    Topt                         O(n3)
Google N-gram                              ⾃自⼰己
 PMI




l    Google⽇日       N                      ⽤用
      l    #(mh) m, h
      l    #(m) m
l    Eisner        ⾜足           s(m, h)          T
      ⼀一                 const
⼤大   ⾻骨          ⾻骨




            ⼤大




          ⼤大⾬雨
1.          ⾃自
      l 

      l 



2. 
      l 

      l    ⼤大

3.                 ⾃自
      l                 ⾃自
      l            ⼤大
             l    ⼤大         ⾃自
1.          ⾃自




l 
l 


l          ⾃自
l                        ⾼高        PMI
      l         580K     117M            72K
      l         580K     13.4M            20.5K
2.



                            ⼤大



l          ⼤大

l 
      l         542M  ⼤大    114M        ⼤大   68K
      l         542M          1.66M                77
l          ⼤大
3.         ⾃自



           ⼤大



l    ⼤大        ⽂文


l 
l 
1 ⾼高

l    PMI          ⾔言




l 
1   ⽂文

                         ⼤大

                    ⼤大

                                         2


l                            ⼊入   ⼤大

l    ⽊木                              
2



                            ⼤大⾬雨




                ⼤大⾬雨


l         ⽊木
l                                 ⽅方

l    ⽂文        ⽤用
[⼯工 05][             +06]  

              	
         	
   	
     	
       	
   	
   	
   	
     	
     	
     	
(1)  1    0    1    1    0    1    0    1    0    0    0    1
(2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95
(3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95                   0.0    0.0    0.0   0.99

                   (1)                      (2)     SSC ( =0.95) (3)


      l 
            ⼒力力
      l 
      l 
⼤大          PMI               ⽤用 [Zhou+11]

l            PMI                  ⼊入
l    PMI            Google         ⽤用
l                  +1 ~ 2
⽂文

l  [Eisner96] J. M. Eisner. Three New Probabilistic Models for
    Dependency Parsing: An Exploration. COLING ‘96.
l  [⼯工 05] ⼯工     .                  ⽤用                 ⼀一
        ⽤用. ⾔言                ⼤大 ’05.
l  [      +06]        ⼤大 , ⼯工     ,       .                 ⽤用
                                          ⽤用. NLP ⼿手
         ‘06.
l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web-
    Derived Selectional Preference to Improve Statistical
    Dependency Parsing. ACL ’11.

More Related Content

Viewers also liked

Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
Efficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String CollectionsEfficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String Collectionsrvernica
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...Masumi Shirakawa
 
Information Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram DataInformation Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram DataGerard de Melo
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界Preferred Networks
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端Yuya Unno
 
SAS University Edition - Getting Started
SAS University Edition - Getting StartedSAS University Edition - Getting Started
SAS University Edition - Getting StartedCraig Trim
 
Text categorization
Text categorizationText categorization
Text categorizationKU Leuven
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
Extreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a WeekExtreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a WeekShuyo Nakatani
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep LearningYuya Unno
 
Short Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-GramShort Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-GramShuyo Nakatani
 
Semantic Search for Sourcing and Recruiting
Semantic Search for Sourcing and RecruitingSemantic Search for Sourcing and Recruiting
Semantic Search for Sourcing and RecruitingGlen Cathey
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
DeNAの機械学習・深層学習活用した 体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した 体験提供の挑戦Koichi Hamada
 

Viewers also liked (20)

Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
Efficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String CollectionsEfficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String Collections
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
 
Information Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram DataInformation Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram Data
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
 
SAS University Edition - Getting Started
SAS University Edition - Getting StartedSAS University Edition - Getting Started
SAS University Edition - Getting Started
 
Text categorization
Text categorizationText categorization
Text categorization
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Extreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a WeekExtreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a Week
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
Short Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-GramShort Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-Gram
 
Semantic Search for Sourcing and Recruiting
Semantic Search for Sourcing and RecruitingSemantic Search for Sourcing and Recruiting
Semantic Search for Sourcing and Recruiting
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
DeNAの機械学習・深層学習活用した 体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した 体験提供の挑戦
 

More from Yuya Unno

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネスYuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするYuya Unno
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
 
進化するChainer
進化するChainer進化するChainer
進化するChainerYuya Unno
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアルYuya Unno
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門Yuya Unno
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Yuya Unno
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴Yuya Unno
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」Yuya Unno
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能Yuya Unno
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-Yuya Unno
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...Yuya Unno
 

More from Yuya Unno (20)

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
進化するChainer
進化するChainer進化するChainer
進化するChainer
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
 

N-gram統計量からの係り受け情報の復元 (YANS2011)

  • 1. N-gram 2011/09/22 NLP ⼿手 6 , ⼤大 {unno, hillbig}@prefered.jp
  • 2. l  N ⾏行行 l  l  ⾒見見 ⾏行行 l  ⽇日 ⾏行行
  • 3. ⽂文 ⽤用 ⼤大 ⼤大 ⼤大 l  ⼊入 l  ⾶飛
  • 4. l  l  ⼀一⽅方 ⾼高 l  l  ⾔言 ⽂文
  • 5. ⼤大 l  l  l  l  l  l  l  N
  • 6. ⻑⾧長 l  ⽂文 ⼀一 l  l  ⽤用 l  ⼤大 ⾻骨 ⾻骨 l  l  ⽤用 l  l  ⼤大 l  l  ⼤大⾬雨 l 
  • 7. Eisner [Eisner96] A B C D E root = A D + B D + B C + D root + D E l  ⽊木 T S(T) l  S(T) = ∑(m, h) T s(m, h) l  (m, h) T ⾮非 l  S(T) ⼤大 Topt O(n3)
  • 8. Google N-gram ⾃自⼰己 PMI l  Google⽇日 N ⽤用 l  #(mh) m, h l  #(m) m l  Eisner ⾜足 s(m, h) T ⼀一 const
  • 9. ⼤大 ⾻骨 ⾻骨 ⼤大 ⼤大⾬雨
  • 10. 1.  ⾃自 l  l  2.  l  l  ⼤大 3.  ⾃自 l  ⾃自 l  ⼤大 l  ⼤大 ⾃自
  • 11. 1. ⾃自 l  l  l  ⾃自 l  ⾼高 PMI l  580K   117M   72K l  580K   13.4M   20.5K
  • 12. 2. ⼤大 l  ⼤大 l  l  542M  ⼤大 114M   ⼤大 68K l  542M   1.66M   77 l  ⼤大
  • 13. 3. ⾃自 ⼤大 l  ⼤大 ⽂文 l  l 
  • 14. 1 ⾼高 l  PMI ⾔言 l 
  • 15. 1 ⽂文 ⼤大 ⼤大 2 l  ⼊入 ⼤大 l  ⽊木   
  • 16. 2 ⼤大⾬雨 ⼤大⾬雨 l  ⽊木 l     ⽅方 l  ⽂文 ⽤用
  • 17. [⼯工 05][ +06]   (1) 1 0 1 1 0 1 0 1 0 0 0 1 (2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95 (3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99 (1)   (2) SSC ( =0.95) (3) l  ⼒力力 l  l 
  • 18. ⼤大 PMI ⽤用 [Zhou+11] l  PMI ⼊入 l  PMI Google ⽤用 l  +1 ~ 2
  • 19. ⽂文 l  [Eisner96] J. M. Eisner. Three New Probabilistic Models for Dependency Parsing: An Exploration. COLING ‘96. l  [⼯工 05] ⼯工 . ⽤用 ⼀一 ⽤用. ⾔言 ⼤大 ’05. l  [ +06] ⼤大 , ⼯工 , . ⽤用 ⽤用. NLP ⼿手 ‘06. l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web- Derived Selectional Preference to Improve Statistical Dependency Parsing. ACL ’11.