Accelerating Collapsed Variational Bayesian Inference for Latent Dirichlet Allocation with Nvidia CUDA compatible devices

Accelerating C ollapsed V ariational B ayesian Inference for L atent D irichlet A llocation with Nvidia CUDA Compatible Devices Tomonari MASADA 正田備也 Nagasaki University [email_address]

Overview ,[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

LDA (latent Dirichlet allocation )

latent Dirichlet allocation [Blei et al. 02] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Dir ( β ) topic = word multinomial Tomonari MASADA (IEA-AIE 2009) symmetric Dirichlet prior v 1 v 2 v 3 v 4 t 1 φ 11 φ 12 φ 13 φ 14 v 1 v 2 v 3 v 4 t 2 φ 21 φ 22 φ 23 φ 24 v 1 v 2 v 3 v 4 t 3 φ 31 φ 32 φ 33 φ 34

document Dir ( α ) per-doc topic multinomial Tomonari MASADA (IEA-AIE 2009) symmetric Dirichlet prior θ j 1 θ j 2 θ j 3

v 3 v 1 v 3 v 2 v 2 θ j 1 θ j 2 θ j 3 Tomonari MASADA (IEA-AIE 2009) v 1 v 2 v 3 v 4 t 3 φ 31 φ 32 φ 33 φ 34 v 1 v 2 v 3 v 4 t 2 φ 21 φ 22 φ 23 φ 24 v 1 v 2 v 3 v 4 t 1 φ 11 φ 12 φ 13 φ 14

posterior distribution ,[object Object],[object Object],[object Object],[object Object],unknown known Tomonari MASADA (IEA-AIE 2009)

Inference methods for LDA ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

・・・ Tomonari MASADA (IEA-AIE 2009) vote γ 111 γ 112 γ 113 party γ 12 1 γ 122 γ 123 prime γ 131 γ 132 γ 133 ・・・ stock γ 241 γ 242 γ 243 ratio γ 251 γ 252 γ 253 prime γ 231 γ 232 γ 233 ・・・ party γ 321 γ 322 γ 323 celeb γ 361 γ 362 γ 363 prime γ 331 γ 332 γ 333 ・・・

Interpretation of γ jwk ,[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Algorithm of CVB ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Update γ jwk j : doc id w : word id k : topic id Tomonari MASADA (IEA-AIE 2009) O ( MK ) time M : # of unique doc-word pairs K : # of topics

Updating posterior parameters ,[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009) j : doc id w : word id k : topic id

Approximation by Gaussian ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009) j : doc id w : word id k : topic id

O( JK ) size O( KW ) size O( K ) size O( MK ) size Tomonari MASADA (IEA-AIE 2009) j : doc id w : word id k : topic id E[ n jk ] Var[ n jk ] E[ n kw ] Var[ n kw ] E[ n k ] Var[ n k ] γ jwk

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Details of CVB for LDA Update another two types of E[]s and Var[]s in a similar manner. Tomonari MASADA (IEA-AIE 2009) j : doc id w : word id k : topic id

Parallelization of CVB for LDA “ as many threads as topics”

Parallelization of CVB ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Update γ jwk Tomonari MASADA (IEA-AIE 2009) conventional parallelization proposed parallelization

[object Object],[object Object],[object Object],[object Object],[object Object],Strategy: “different topics for different threads” Tomonari MASADA (IEA-AIE 2009) γ jw 1 + γ jw 2 + ・・・ + γ jwK = 1 Normalization is required! O ( MK )  O ( M log K )

Reduction for normalization O (log K ) Tomonari MASADA (IEA-AIE 2009)

A new approach (not a parallelization) ,[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Accelerating CVB for LDA by GPGPU

Nvidia CUDA (C ompute U nified D evice A rchitecture ) Grid Device Memory documents topics Shared Memory Registers Thread Registers Thread Block Shared Memory Registers Thread Registers Thread Block

Device memory access latency Grid Device Memory 16KB Shared Memory Registers Thread Registers Thread Block Shared Memory Registers Thread Registers Thread Block

Data transfer latency Host Memory Transfer one large block instead of many smaller ones! Grid Device Memory Shared Memory Registers Thread Registers Thread Block Shared Memory Registers Thread Registers Thread Block

O( JK ) size O( KW ) size O( K ) size parameters of approximated posterior Tomonari MASADA (IEA-AIE 2009) j : doc id w : word id k : topic id E[ n jk ] Var[ n jk ] E[ n kw ] Var[ n kw ] E[ n k ] Var[ n k ] γ jwk

Where to store? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],registers shared memory (for summation) registers device memory Tomonari MASADA (IEA-AIE 2009)

write conflicts O( KW ) size Tomonari MASADA (IEA-AIE 2009) γ j’wk E[ n kw ] Var[ n kw ] γ jwk

Text mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

16 topics 64 iterations on CPU 64 iterations on GPU

64 iterations on CPU 64 iterations on GPU 32 topics

64 topics 64 iterations on CPU 64 iterations on GPU

Image mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Image mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Tomonari MASADA (IEA-AIE 2009)

Image mining (2 nd trial) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

discussions ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Future work ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Tomonari MASADA (IEA-AIE 2009)

Thank you for your attention! 非常感謝 !!!

Accelerating Collapsed Variational Bayesian Inference for Latent Dirichlet Allocation with Nvidia CUDA compatible devices

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (18)

Similar a Accelerating Collapsed Variational Bayesian Inference for Latent Dirichlet Allocation with Nvidia CUDA compatible devices

Similar a Accelerating Collapsed Variational Bayesian Inference for Latent Dirichlet Allocation with Nvidia CUDA compatible devices (20)

Más de Tomonari Masada

Más de Tomonari Masada (20)

Accelerating Collapsed Variational Bayesian Inference for Latent Dirichlet Allocation with Nvidia CUDA compatible devices