SlideShare una empresa de Scribd logo
1 de 4
Descargar para leer sin conexión
Web



                          {jmiyake, kotsukam, msassano}@yahoo-corp.jp


1
    Web



                                         1


                                                          Web




                                                   3




SVM




2
    Bergsma     [1]                                3.1

SVM



                                   Tan       [2]                         1
      Web                          5-gram

     Wikipedia


Wang      [3]     Microsoft Web N-gram


                                         Web                 CountDown
1:



                                       0.915
                                        0.03
                                        0.02
                                       0.013
                                       0.011
 ...                                      ...
                                                    1:


                                                                                    1
                                                                                                        2
        1




                                                                        0.1%

                    iphone4 iphone 4




                                                  3-gram




                                                   3-gram


                                                n-gram                                                      q
                                                                  Q                  q         xi               N
3.2
                                                         q = {x0 , x1 , x2 , ..., xN }        q∈Q

3.2.1                                                                                     3-gram
                                                                                                    Q
        1                     2
                                                    q
            1
                                                                  ∑N
                                                                      i=1   log P (xi |xi−2 , xi−1 )
                                                          max
                2                      Web                q∈Q                   N −1


                                                3.2.2

                                                              (                 +                                   +
  Web
                                                             )
2:



                                   2010        10     1        31
                                                              615              Wikipedia
                                                              82.4 %
                                   2010        10     1        31
                                                                    20
                                                                         4       SVM

   3:

                                        Qry-Acc       Seg-Acc
                                             0.645        0.937
                                             0.617        0.923
                                             0.731        0.951
                                             0.732        0.953                                                   SVM
                +                            0.739        0.952
                +                            0.773        0.962
                    +                        0.781        0.962


                         Web                                             4.1     SVM
                                                                          SVM                                        Sassano[4]
                                                                         Neubig       [5]

            1

                                        (             +
 )                               Bergsma          Query                             n-gram               n-gram
Accuracy(Qry-Acc)              Segment Accuracy(Seg-Acc)                                                              SVM
            Qry-Acc                                            Seg-
Acc
                        0.9
        2                                             1                  4.1.1
                        10                                2                  SVM
                                                                               n-gram
                                  100%           5%                                                                   xi , xi+1
                                                600                                                           w
                                                               2         xi−w+1 , .., xi , xi+1 , ..., xi+w       n-gram

       3                                                                          n-gram
      +                       Qry-Acc       Seg-Acc                                     n-gram
                                    +
                                                                         n-gram

   1 Yahoo! Japan

Web API                                                                        n-gram
http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
4: SVM                                                             5: SVM

                                                                                                      Qry-Acc   Seg-Acc
                               2010       10       1      31                     +                      0.659     0.943
                                                        10                           +                  0.667     0.945
                               2010       10       1      31
                                                               20
                                                                    5
 SVM                                                   liblinear


                                  xi , xi+1
                           R
      L xi , xi+1                              I                                     Web


                 ipadic-2.7.0-20070801
Wikipedia
                                      (            Wikpedia:
      2              Wikipedia:       10           )                     SVM



4.2
                 SVM
                                                         SVM
                     1         Web
                                                                    [1] S. Bergsma and Q.I. Wang. Learning noun phrase
            10                                                          query segmentation. In Proc. of EMNLP-CoNLL,
  (              +                                 +                    2007.
 )                                                           4      [2] B. Tan and F. Peng. Unsupervised query seg-
                                     Qry-Acc           Seg-Acc          mentation using generative language models and
            SVM                         liblinear[6]                    wikipedia. In Proceeding of the 17th internatio-
                                                                        nal conference on World Wide Web, pp. 347–356.
                                     5 n-gram
                                                                        ACM, 2008.
  3
                                                                    [3] K. Wang, C. Thrasher, E. Viegas, X. Li, and
                                                                        B.P. Hsu. An overview of Microsoft web N-gram
                                                                        corpus and applications. In Proceedings of the
4.3                                                                     NAACL HLT 2010 Demonstration Session, pp.
                                                                        45–48. Association for Computational Linguis-
                 5                                             +        tics, 2010.
                                                                    [4] M. Sassano. An empirical study of active learning
                                                                        with support vector machines for Japanese word
                                                                        segmentation. In Proceedings of the 40th Annual
                                                                        Meeting on Association for Computational Lin-
                                                                        guistics, pp. 505–512. Association for Computa-
                                                                        tional Linguistics, 2002.
                                                                    [5] Graham Neubig,            ,        .
                                                                                                                 .
                                                                                 16            (NLP2010),        , 3 2010.
                                                                    [6] R.E. Fan, K.W. Chang, C.J. Hsieh, X.R. Wang,
                                                                        and C.J. Lin. LIBLINEAR: A library for large
                                                                        linear classification. The Journal of Machine Le-
                                                                        arning Research, Vol. 9, pp. 1871–1874, 2008.

Más contenido relacionado

Similar a クエリログとスニペットの単語連接頻度に基づく Web検索クエリのセグメンテーション

Real-Time 3D Programming in Scala
Real-Time 3D Programming in ScalaReal-Time 3D Programming in Scala
Real-Time 3D Programming in ScalaHideyuki Takeuchi
 
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVMTUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVMMediaEval2012
 
Plone 4 and 5, plans and progress
Plone 4 and 5, plans and progressPlone 4 and 5, plans and progress
Plone 4 and 5, plans and progressGeir Bækholt
 
Technical Tricks of Vowpal Wabbit
Technical Tricks of Vowpal WabbitTechnical Tricks of Vowpal Wabbit
Technical Tricks of Vowpal Wabbitjakehofman
 

Similar a クエリログとスニペットの単語連接頻度に基づく Web検索クエリのセグメンテーション (7)

Xs sho niboshi
Xs sho niboshiXs sho niboshi
Xs sho niboshi
 
Ocr
OcrOcr
Ocr
 
Real-Time 3D Programming in Scala
Real-Time 3D Programming in ScalaReal-Time 3D Programming in Scala
Real-Time 3D Programming in Scala
 
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVMTUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM
TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM
 
AA-sort with SSE4.1
AA-sort with SSE4.1AA-sort with SSE4.1
AA-sort with SSE4.1
 
Plone 4 and 5, plans and progress
Plone 4 and 5, plans and progressPlone 4 and 5, plans and progress
Plone 4 and 5, plans and progress
 
Technical Tricks of Vowpal Wabbit
Technical Tricks of Vowpal WabbitTechnical Tricks of Vowpal Wabbit
Technical Tricks of Vowpal Wabbit
 

Más de Yahoo!デベロッパーネットワーク

ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかYahoo!デベロッパーネットワーク
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2Yahoo!デベロッパーネットワーク
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcYahoo!デベロッパーネットワーク
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo!デベロッパーネットワーク
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcYahoo!デベロッパーネットワーク
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtcYahoo!デベロッパーネットワーク
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcYahoo!デベロッパーネットワーク
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcYahoo!デベロッパーネットワーク
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcYahoo!デベロッパーネットワーク
 

Más de Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

クエリログとスニペットの単語連接頻度に基づく Web検索クエリのセグメンテーション

  • 1. Web {jmiyake, kotsukam, msassano}@yahoo-corp.jp 1 Web 1 Web 3 SVM 2 Bergsma [1] 3.1 SVM Tan [2] 1 Web 5-gram Wikipedia Wang [3] Microsoft Web N-gram Web CountDown
  • 2. 1: 0.915 0.03 0.02 0.013 0.011 ... ... 1: 1 2 1 0.1% iphone4 iphone 4 3-gram 3-gram n-gram q Q q xi N 3.2 q = {x0 , x1 , x2 , ..., xN } q∈Q 3.2.1 3-gram Q 1 2 q 1 ∑N i=1 log P (xi |xi−2 , xi−1 ) max 2 Web q∈Q N −1 3.2.2 ( + + Web )
  • 3. 2: 2010 10 1 31 615 Wikipedia 82.4 % 2010 10 1 31 20 4 SVM 3: Qry-Acc Seg-Acc 0.645 0.937 0.617 0.923 0.731 0.951 0.732 0.953 SVM + 0.739 0.952 + 0.773 0.962 + 0.781 0.962 Web 4.1 SVM SVM Sassano[4] Neubig [5] 1 ( + ) Bergsma Query n-gram n-gram Accuracy(Qry-Acc) Segment Accuracy(Seg-Acc) SVM Qry-Acc Seg- Acc 0.9 2 1 4.1.1 10 2 SVM n-gram 100% 5% xi , xi+1 600 w 2 xi−w+1 , .., xi , xi+1 , ..., xi+w n-gram 3 n-gram + Qry-Acc Seg-Acc n-gram + n-gram 1 Yahoo! Japan Web API n-gram http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
  • 4. 4: SVM 5: SVM Qry-Acc Seg-Acc 2010 10 1 31 + 0.659 0.943 10 + 0.667 0.945 2010 10 1 31 20 5 SVM liblinear xi , xi+1 R L xi , xi+1 I Web ipadic-2.7.0-20070801 Wikipedia ( Wikpedia: 2 Wikipedia: 10 ) SVM 4.2 SVM SVM 1 Web [1] S. Bergsma and Q.I. Wang. Learning noun phrase 10 query segmentation. In Proc. of EMNLP-CoNLL, ( + + 2007. ) 4 [2] B. Tan and F. Peng. Unsupervised query seg- Qry-Acc Seg-Acc mentation using generative language models and SVM liblinear[6] wikipedia. In Proceeding of the 17th internatio- nal conference on World Wide Web, pp. 347–356. 5 n-gram ACM, 2008. 3 [3] K. Wang, C. Thrasher, E. Viegas, X. Li, and B.P. Hsu. An overview of Microsoft web N-gram corpus and applications. In Proceedings of the 4.3 NAACL HLT 2010 Demonstration Session, pp. 45–48. Association for Computational Linguis- 5 + tics, 2010. [4] M. Sassano. An empirical study of active learning with support vector machines for Japanese word segmentation. In Proceedings of the 40th Annual Meeting on Association for Computational Lin- guistics, pp. 505–512. Association for Computa- tional Linguistics, 2002. [5] Graham Neubig, , . . 16 (NLP2010), , 3 2010. [6] R.E. Fan, K.W. Chang, C.J. Hsieh, X.R. Wang, and C.J. Lin. LIBLINEAR: A library for large linear classification. The Journal of Machine Le- arning Research, Vol. 9, pp. 1871–1874, 2008.