Enviar búsqueda
Cargar
第二回機械学習アルゴリズム実装会 - LDA
•
52 recomendaciones
•
17,051 vistas
Masayuki Isobe
Seguir
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 11
Descargar ahora
Descargar para leer sin conexión
Recomendados
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
Masayuki Isobe
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSL
Masayuki Isobe
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
Masayuki Isobe
17th XBRL 勉強会発表 20110127
17th XBRL 勉強会発表 20110127
Shin-Ichiro Yano
スクレイピングその後
スクレイピングその後
Tomoki Hasegawa
スクレイピングのススメ
スクレイピングのススメ
Tomoki Hasegawa
Power Appsを触って知った既定の環境のこと
Power Appsを触って知った既定の環境のこと
た な
SharePointリストのフォームのカスタマイズを利用したときにハマること
SharePointリストのフォームのカスタマイズを利用したときにハマること
た な
Recomendados
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
Masayuki Isobe
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSL
Masayuki Isobe
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
Masayuki Isobe
17th XBRL 勉強会発表 20110127
17th XBRL 勉強会発表 20110127
Shin-Ichiro Yano
スクレイピングその後
スクレイピングその後
Tomoki Hasegawa
スクレイピングのススメ
スクレイピングのススメ
Tomoki Hasegawa
Power Appsを触って知った既定の環境のこと
Power Appsを触って知った既定の環境のこと
た な
SharePointリストのフォームのカスタマイズを利用したときにハマること
SharePointリストのフォームのカスタマイズを利用したときにハマること
た な
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
hoxo_m
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
Naoki Nishimura
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
Kouhei Nakaji
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
健児 青木
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
Prism.Formsについて
Prism.Formsについて
一希 大田
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
LDA入門
LDA入門
正志 坪坂
JAWSDAYS 2018 LUNCH SESSION
JAWSDAYS 2018 LUNCH SESSION
陽平 山口
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
Shohei Hido
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
Shohei Hido
2023-03-23_SpiralAI
2023-03-23_SpiralAI
SasakiYuichi1
インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
Yasunori Ozaki
機械学習のウソとホント - Machine Learning in the Wild
機械学習のウソとホント - Machine Learning in the Wild
Shin Hashitani
20150219 ピクト図解入門 3_w1h編
20150219 ピクト図解入門 3_w1h編
Hidehiko Akasaka
アクセスデータ収集と解析
アクセスデータ収集と解析
Yoichi Tomi
Azure における強化学習への取り組み
Azure における強化学習への取り組み
Keita Onabuta
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
Tadayoshi Sato
JAWSDAYS2016 ランチタイムセッション
JAWSDAYS2016 ランチタイムセッション
陽平 山口
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
Más contenido relacionado
Destacado
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
hoxo_m
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
Naoki Nishimura
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
Kouhei Nakaji
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
健児 青木
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
Prism.Formsについて
Prism.Formsについて
一希 大田
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
LDA入門
LDA入門
正志 坪坂
Destacado
(10)
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
Twitterテキストのトピック分析
Twitterテキストのトピック分析
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
LDA等のトピックモデル
LDA等のトピックモデル
Prism.Formsについて
Prism.Formsについて
TensorFlowで逆強化学習
TensorFlowで逆強化学習
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
LDA入門
LDA入門
Similar a 第二回機械学習アルゴリズム実装会 - LDA
JAWSDAYS 2018 LUNCH SESSION
JAWSDAYS 2018 LUNCH SESSION
陽平 山口
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
Shohei Hido
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
Shohei Hido
2023-03-23_SpiralAI
2023-03-23_SpiralAI
SasakiYuichi1
インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
Yasunori Ozaki
機械学習のウソとホント - Machine Learning in the Wild
機械学習のウソとホント - Machine Learning in the Wild
Shin Hashitani
20150219 ピクト図解入門 3_w1h編
20150219 ピクト図解入門 3_w1h編
Hidehiko Akasaka
アクセスデータ収集と解析
アクセスデータ収集と解析
Yoichi Tomi
Azure における強化学習への取り組み
Azure における強化学習への取り組み
Keita Onabuta
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
Tadayoshi Sato
JAWSDAYS2016 ランチタイムセッション
JAWSDAYS2016 ランチタイムセッション
陽平 山口
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
20200521AIの民主化
20200521AIの民主化
tdualdir
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
Kimikazu Kato
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
健司 亀本
Watanabe civictechforum
Watanabe civictechforum
siramatu-lab
PMBOK®ガイド概説(「Webプロジェクトマネジメント標準」読書会 …の前に、少しだけPMBOK®について。)
PMBOK®ガイド概説(「Webプロジェクトマネジメント標準」読書会 …の前に、少しだけPMBOK®について。)
Ayako Togaeri
機械学習のマイクロサービスでの運用の実験について #mlops
機械学習のマイクロサービスでの運用の実験について #mlops
Hiroaki Kudo
ピクト図解 Bmキャンバス v2.2
ピクト図解 Bmキャンバス v2.2
Hidehiko Akasaka
Similar a 第二回機械学習アルゴリズム実装会 - LDA
(20)
JAWSDAYS 2018 LUNCH SESSION
JAWSDAYS 2018 LUNCH SESSION
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
2023-03-23_SpiralAI
2023-03-23_SpiralAI
インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
機械学習のウソとホント - Machine Learning in the Wild
機械学習のウソとホント - Machine Learning in the Wild
20150219 ピクト図解入門 3_w1h編
20150219 ピクト図解入門 3_w1h編
アクセスデータ収集と解析
アクセスデータ収集と解析
Azure における強化学習への取り組み
Azure における強化学習への取り組み
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
ビジネスロジック実装進化論 - An Evolution of Business Logic Implementation
JAWSDAYS2016 ランチタイムセッション
JAWSDAYS2016 ランチタイムセッション
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
20200521AIの民主化
20200521AIの民主化
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
Watanabe civictechforum
Watanabe civictechforum
PMBOK®ガイド概説(「Webプロジェクトマネジメント標準」読書会 …の前に、少しだけPMBOK®について。)
PMBOK®ガイド概説(「Webプロジェクトマネジメント標準」読書会 …の前に、少しだけPMBOK®について。)
機械学習のマイクロサービスでの運用の実験について #mlops
機械学習のマイクロサービスでの運用の実験について #mlops
ピクト図解 Bmキャンバス v2.2
ピクト図解 Bmキャンバス v2.2
Más de Masayuki Isobe
オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
Masayuki Isobe
関数型プログラミングとモナド
関数型プログラミングとモナド
Masayuki Isobe
ジャパンドローンセミナー
ジャパンドローンセミナー
Masayuki Isobe
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
Masayuki Isobe
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
Masayuki Isobe
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
Masayuki Isobe
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
Masayuki Isobe
ブランディング指標の数値化について
ブランディング指標の数値化について
Masayuki Isobe
TEDxTitech 2013 speech material
TEDxTitech 2013 speech material
Masayuki Isobe
Rec sys2013 reading_isobe
Rec sys2013 reading_isobe
Masayuki Isobe
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ
Masayuki Isobe
rzmq
rzmq
Masayuki Isobe
Uuyアドテクセミナー
Uuyアドテクセミナー
Masayuki Isobe
第12回モヤLT発表資料
第12回モヤLT発表資料
Masayuki Isobe
Tokyo.R 26 LT isobe
Tokyo.R 26 LT isobe
Masayuki Isobe
Tokyo r 25_lt_isobe
Tokyo r 25_lt_isobe
Masayuki Isobe
Tokyo.R #22 LT
Tokyo.R #22 LT
Masayuki Isobe
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」
Masayuki Isobe
Más de Masayuki Isobe
(18)
オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
関数型プログラミングとモナド
関数型プログラミングとモナド
ジャパンドローンセミナー
ジャパンドローンセミナー
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
ブランディング指標の数値化について
ブランディング指標の数値化について
TEDxTitech 2013 speech material
TEDxTitech 2013 speech material
Rec sys2013 reading_isobe
Rec sys2013 reading_isobe
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ
rzmq
rzmq
Uuyアドテクセミナー
Uuyアドテクセミナー
第12回モヤLT発表資料
第12回モヤLT発表資料
Tokyo.R 26 LT isobe
Tokyo.R 26 LT isobe
Tokyo r 25_lt_isobe
Tokyo r 25_lt_isobe
Tokyo.R #22 LT
Tokyo.R #22 LT
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」
Último
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Último
(11)
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
第二回機械学習アルゴリズム実装会 - LDA
1.
機械学習アルゴリズム実装会#2 LDA for topic
modeling Masayuki Isobe
2.
自己紹介 • 礒部正幸(いそべ まさゆき) •
職業: ソフトウェアエンジニア • 現在: アドファイブ(株) 代表 http://www.adfive.net – 今のところ代表1名の会社です – アドテク、データドリブンマーケティング事業 • ソフトウェアコンサルティング及び受託開発 • 理系大学院卒 • インターネット活動 – TwitterID: @chiral – (ブログ:アドファイブ日記) http://d.hatena.ne.jp/isobe1978/ • 最近実装したアルゴリズム – カルマンフィルタ、粒子フィルタ、Restricted Boltzmann Machine、ベイズロジスティック回帰、uplift modeling, SCW, LDA
3.
Topic Modelingとは • 主に文書データを想定したクラスタリング –
クラスタリング = 教師なし分類 文書データの例) 文書1 = “明日は機械学習ハッカソンの日だ。予習はバッチリだ。” 文書2 = “ワールドカップのせいで夜更かししちゃいそうで怖い。” 文書3 = “日本人のせいで鰻が絶滅したら末代まで世界の恥だ。” … • Bag of Words (BoW) というデータを統計モデル化 Bag of wordsの例) BoW1 = { “明日”:1, ”機械学習”:1, “ハッカソン”:1, “日”:1, “予習”:1, “バッチリ”:1 } BoW2 = { “ワールドカップ”:1, “夜更かし”:1, “怖い”:1 } BoW3 = { “日本人”:1, “鰻”:1, “絶滅”:1, “末代”:1, “世界”:1, “恥”:1 } ・単語の順番を無視して、文書内に出現する単語の頻度だけ考える ・教師データを与えずに、単語の出現傾向(=トピック)をモデル化する
4.
LDAとは • TopicModelingの1手法 – 入力=文書(BoW)の集合
、 トピック数K( K=5とか、人間が与える) → 出力=各文書の各単語のトピック番号が確率分布で得られる 例)文書100個、トピック数K=3 BoW1 = { “明日”: [ 0.1,0.1 ,0.8], ”機械学習”:[ 0.2,0.3,0.5 ], “ハッカソン”:[ 0.4,0.3,0.3 ], “日”:[ 0.2,0.2,0.6 ] , “予習”:[ 0.3,0.5,0.2 ], “バッチリ”:[ 0.2,0.6,0.2 ] } BoW2 = … • 代表的な確率計算アルゴリズム(下に行くほど新しい) – 変分ベイズ法 • LDAの考案者であるBlei博士の論文で実装 – Collapsed Gibbs sampler • Mallet(Java), Gensim(Python) で実装されている – 周辺化変分ベイズ法Zero • Mahout(Java)で実装されている K=3なので3面サイコロの確率分布が各単語について計算される 今日はこれを 実装します。 (LDAの実装 といえば、まず 最初にこれを やるのが定番 となっている)
5.
LDAの統計モデル(1) K = トピック数 α
=ハイパーパラメータ Β =ハイパーパラメータ 人が天下り的に与える 統計モデルを数式じゃなくてこういう図であらわすことを グラフィカルモデルって言います 矢印は 「何かサイコロを振る行為」を表します。 黒く塗りつぶした変数(下図だとw)は、観測データ 白抜きの変数は、パラメータ 四角い箱の囲みは、その中にある丸と矢印を繰り返す という意味。 φ = V面サイコロ Θ =K面サイコロ Z =サイコロΘの出目 モデルの中で使うパラメータ M = 文書の数 N =その文書の単語の数 W =その文書の単語 (あと、図に無いけど便宜上 V =単語の種類数とする) 観測データ(学習データ) =
6.
LDAの統計モデル(2) Βに従ってV面サイコロφを K(トピック数)個製造する αに従ってK面サイコロΘを M(文書の数)個製造する その文書用のK面サイコロΘ をN(その文書の単語数)回振る 出目Zを見てV面サイコロφを選んで 振ってWを出す(ってのをN個ぶんやる)
7.
潜在変数とベイズ推定 白抜きのパラメータのうち、人間が天下り的に与えない φ、Θ、Zの3つが パラメータ学習の対象。 ベイズ推定では、φ、Θ、Zの初期値を与えて、サンプリングによってφ、Θ、Zが それぞれどんな感じで出てくるかを調べる。 LDAで最も知りたいのはZであり、φ、Θはサンプリングせず、あらかじめ数式変形に よって周辺化(積分)することができる。 Collapsed Gibbs
Samplerでは、zだけをサンプリングして、zの確率分布を分析する。
8.
Zのサンプリング • (前頁の通り)Θとφは数式上であらかじめ積分消去してある。 • それでもZは1次元ではないことに注意、Zは「各文書の単語数を合計」したぶんだ け要素がある 坪坂さんの資料より引用 http://www.slideshare.net/tsubosaka/tokyotextmining 各面の面積が、この式 の右辺で表されるような 「K面サイコロ」を各単語 について作って振れば よい
9.
アルゴリズム概要 ① 各単語にトピック番号(1~Kのいずれか)を ランダムに付与する ② 各単語ごとに、上の式に従ってK面サイコロを作り、 そのサイコロを振ってその単語に付与されたトピック 番号を更新する ③
すべての単語について②をやったら、また最初の単語 から②をやるというののを数十セット繰り返す ④ ②で振ったサイコロの出目 (文書Dの単語WのトピックがTという3つ組)の履歴を 集計して出力 Zは単語の数ぶんある多次元ベクトルなので、 ②は本来は多次元のぶんだけ 「いっせーのせ」でサイコロを振る必要があるが、単語1個ずつサイコロを振っていく、 そのときにその単語以外のZは固定してしまう、というのがギブスサンプラー。 おまけ知識:ギブスサンプラーとはなんぞや
10.
データセットとソースコード • http://labs.adfive.net/mlhackathon/20140614/in1.csv – Yahooニュースヘッドライン(2014/6/13日分)から366記事 スクレイピングしてMeCab使ってBoW化したCSVファイル •
http://labs.adfive.net/mlhackathon/20140614/in1_small.csv – より少量のデータとして、30記事ぶんのも用意しました • 講師のプログラムはこちらにおいてありますので見ながらやりたい人はどうぞ https://gist.github.com/chiral/2560383d5643da80b6bf
11.
参考資料 • https://www.ai-gakkai.or.jp/my-bookmark_vol27-no3/ • http://www.slideshare.net/tsubosaka/tokyotextmining •
http://d.hatena.ne.jp/n_shuyo/20110215/lda
Descargar ahora