SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
LDAを使った教師なし単語分類
概要
LDAについて
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
LDAの構造
- 文章中の各単語がそれぞれ背景
にトピックを持つ
- 各文章は様々なトピックが混合
されている 20% 20%60%文章:
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
3.以下の確率で選んだ単語wのトピ
ックを変更する
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
単語分類の手順
( ­ は「選んだ単語を除く」という意味)
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
4. 2と3の繰り返し(収束するまで)
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
5.各背景トピックを持つ単語を
 数え上げる
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
トピック1
同点:1
競技性:1
トピック2
大リーグ:1
青木:1
カージナルス:1
本塁打:1
報道:1
トピック3
発祥:1
ロンドン:1
パラリンピック:1
世界記録:1
リオデジャネイロ:1
ニュース記事に適用してみる
セットアップ
単語の抽出: 30万語登録したキーワード辞書による
データ: スポーツの記事 2000 件
トピック数: 15
, : 全て 0.01
結果:
男子:85
大会:64
選手:63
メートル:61
女子:59
メダル:56
日本:54
金メダル:49
車いす:45
ロンドンパラリンピック:45
ゴルフ:129
ツアー:110
ヤード:94
オープン:91
女子:86
国内:85
大会:85
スタート:85
ホール:70
男子:63
試合:333
安打:205
監督:205
阪神:202
選手:178
広島:164
投手:156
連続:136
巨人:131
野球:122
選手:220
試合:212
Goa:152
監督:133
クラブ:122
大会:100
スペイン:97
世界:93
ワールドカップ:81
時間:76
オートスポーツ:54
レース:52
F1:40
イタリア:33
マシン:32
ドライバー:26
時間:15
タイム:15
ステージ:15
試合:246
日本:187
アジア最終予選:174
監督:168
日本代表:162
選手:160
イラク:136
サッカー:118
ブラジル:114
自分:113
大相撲:63
秋場所:62
大関:51
場所:48
両国国技館:44
東京:37
横綱:35
琴奨菊:35
日馬富士:35
初日:34
王者:54
東京:46
大会:33
カード:28
イベント:26
トーナメント:25
試合:24
王座:20
ジム:19
世界:17
女子:29
スポニチ:26
東京:25
大会:23
関係者:23
五輪:22
来年:20
ロンドン五輪:20
指導:16
東京都:15
15回以上登場した単語のみ表示
残り6トピック中には,
15回以上登場した単語が0
だったので表示していない
数字は各トピックに属する単語
の数
スポーツの各トピックごとに単語が分類できた
1つ1つが
トピックに対応

Más contenido relacionado

La actualidad más candente

整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
Kentaro Kanamori
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 

La actualidad más candente (20)

Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ整数計画法に基づく説明可能性な機械学習へのアプローチ
整数計画法に基づく説明可能性な機械学習へのアプローチ
 
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみたトピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
LDA入門
LDA入門LDA入門
LDA入門
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
機械学習の未解決課題
機械学習の未解決課題機械学習の未解決課題
機械学習の未解決課題
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
LDAのハイパーパラメータの性質
LDAのハイパーパラメータの性質LDAのハイパーパラメータの性質
LDAのハイパーパラメータの性質
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
FEPチュートリアル2021 講義3 「潜在変数が連続値、生成モデルが正規分布の場合」の改良版
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 

Último

Último (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

LDAを用いた教師なし単語分類