Multiplicação de matrizes em cuda

•Descargar como PPTX, PDF•

1 recomendación•3,705 vistas

John Tortugo

Exemplos de Multiplicação de Matrizes em CUDA.

Educación

Multiplicação de Matrizes em CUDA Divino César SoaresPontifícia Universidade Católica de Goiás (CMP/PUC-GO)

Gerar uma matriz resultado C com as mesmas dimensões das matrizes A e B.

Cada elemento (i, j) da matriz C é o produto (interno) da linha i de A pela coluna j de B.

Para cada elemento (i, j) de C:for (k=1; k<=LARGURA; k++) C[i][j] += (A[i][k] * B[k][j]);

Implementação Sequencial void multiplica(int *A[], int *B[], int *C[]) { for (int i=1; i<=LARGURA; i++) { for (int j=1; j<=LARGURA; j++) { for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } } } 1 2 3 4 ,[object Object],L = 4 i = 1 j = 1 k = 1 4 1 2 3

Estrutura da Solução Alocar memória na GPU. Copia dados de entrada. Da CPU para a GPU. Configura execução. Número de threads e blocos. Copia resultados. cudaMalloc((void **)&A_d, size_A); cudaMalloc((void**)&B_d, size_B); cudaMalloc((void**)&C_d, size_C); cudaMemcpy(A_d, A, size_A, cudaMemcpyHostToDevice); cudaMemcpy(B_d, B, size_B , cudaMemcpyHostToDevice); cudaMemcpy(C_d, C, size_C , cudaMemcpyHostToDevice); dim3 gride(X, Y)dim3 bloco(Z, W, K)meu_kernel<<<gride, bloco>>>(A, B, C); cudaMemcpy(C, C_d, size_C , cudaMemcpyDeviceToHost);

Kernel 1 dim3 gride(1, 1) dim3 bloco(4, 4, 1) dim3 gride(2, 1) dim3 bloco(4, 4, 1) dim3 gride(1, 1) dim3 bloco(30, 30, 1) Gride Gride Gride << Launcherror >>> Bloco com 600 threads Bloco 0 Bloco 0 Bloco 1

Kernel 1 dim3 gride(1, 1) dim3 bloco(LARGURA, LARGURA, 1) Gride LARGURA LARGURA Bloco 0

$Kernel 1 dim3 gride(1, 1) dim3 bloco(LARGURA, LARGURA, 1) Gride __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } LARGURA LARGURA Bloco 0 Kernel 1: Multiplicação na GPU$

$Kernel 1 1 Instante de tempo t=0 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3$

$Kernel 1 1 Instante de tempo t=1 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3$

$Kernel 1 1 Instante de tempo t=2 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3$

$Kernel 1 1 Instante de tempo t=L 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3$

Vantagens/Desvantagens ,[object Object],cada elemento de C é calculado em paralelo. ,[object Object],Restrição do formato das matrizes. Elas devem ser quadradas. Restrição da quantidade de elementos em cada matriz. Menor que 512. Usa apenas a memória global da GPU. A memória global apresenta grande latência. Apenas um bloco de threads, com poucas threads. Tamanho do maior bloco 22 x 22. Os mesmos dados são buscados várias vezes da memória. Resultado: Subutilização dos recursos da GPU.

Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) dim3 gride(1, 1) dim3 bloco(30, 30, 1) Gride Gride << Launcherror >>> Bloco com 600 threads Bloco 0, 0 Bloco 0, 1 Bloco 1, 0 Bloco 1, 1

Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) Gride Bloco 0, 0 Bloco 0, 1 225 threads por bloco.Total de 900 threads. Bloco 1, 0 Bloco 1, 1

$Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) Gride __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } Bloco 0, 0 Bloco 0, 1 Kernel 2: Multiplicação na GPU Bloco 1, 0 Bloco 1, 1$

$Kernel 2 1 2 __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 2: Multiplicação na GPU 4 1 2 3$

Más contenido relacionado

Destacado

Aula 09 08-2013

Ludmylla Lima Figueiredo

Matrices are mathematical structures of great value to many knowledge areas, being Computing Science one. Among the possible operations on matrices highlight the multiplication, both for its applicability as the high asymptotic complexity involved in the process. The high coeficient of complexity observed in the traditional method served as motivation for many researchers, as Volker Strassen, Don Coppersmith and Shmuel Winograd, embark on the search for more efficient means of resolution. In view of the importance and problems involved in calculating the matrix product, this article provides a brief description on the topic, highlighting the major developed methods, characteristics and constraints.

Multiplicação de matrizes

Diego Lusa

II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...

Eduardo de Lucena Falcão

Multiplicação de Matrizes

Diego Lusa

Multiplicacao de matrizes

Glauber Cruz

Matriz curric. matematica e.médio 2010

Creison

Plano de aula: Aspectos Didático-pedagógicos da Matemática no Ensino Médio II

Elton Ribeiro da Cruz

Planejamento Matrizes e determinantes

MarcieleEuzebio

Destacado (8)

Aula 09 08-2013

Multiplicação de matrizes

II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...

Multiplicação de Matrizes

Multiplicacao de matrizes

Matriz curric. matematica e.médio 2010

Plano de aula: Aspectos Didático-pedagógicos da Matemática no Ensino Médio II

Planejamento Matrizes e determinantes

Similar a Multiplicação de matrizes em cuda

Grafos e Algoritimos - Dr. Julio Cesar de Araujo Menezes

Julio Menezes

Funções (exercícios)

Kleber Miranda

4 tur11

Maria Quintela

Aplicação do k-NN utilizando Bitonic Sort

Vinicius Coelho

Lista 1 - Robótica (Jim & Ronie)

Jim Naturesa

Gabarito funcoes

bferes

Similar a Multiplicação de matrizes em cuda (6)

Grafos e Algoritimos - Dr. Julio Cesar de Araujo Menezes

Funções (exercícios)

4 tur11

Aplicação do k-NN utilizando Bitonic Sort

Lista 1 - Robótica (Jim & Ronie)

Gabarito funcoes

Último

apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...

SileideDaSilvaNascim

O que é arte. Definição de arte. História da arte.

denisecompasso2

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024 QUESTÃO 1 Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até antes mesmo do nascimento passam por três fases de movimento até chegar na fase do movimento especializado. Nesta fase, os movimentos podem ser aprimorados através da aprendizagem, e compreender conceitos como aprendizagem motora, habilidade motora e performance motora é fundamental em nossos estudos. GALLAHUE, D. L.; OZMUN, J. C.; GOODWAY, J. D. Compreendendo o Desenvolvimento Motor. 3. ed. São Paulo: Phorte, 2013. Com base nesses conceitos, analise as afirmativas a seguir: I. A habilidade motora é entendida como um indicador de qualidade de desempenho. Ela é aprendida e caracterizada por movimentos voluntários e involuntários, realizados por uma ou mais partes do corpo. II. A performance motora está relacionada com a execução de uma habilidade motora, contudo ela pode sofrer alterações por diversos fatores, como: condição física, crescimento, questões psicológicas, fadiga, humor, estresse, motivação, entre outros. III. A habilidade motora é entendida como um indicador de qualidade de desempenho. Ela é caracterizada por movimentos voluntários, realizados por uma ou mais partes do corpo, promovendo mudanças relativamente permanentes no comportamento motor. IV. A aprendizagem motora corresponde ao aprendizado do movimento, promovendo mudanças relativamente permanentes no comportamento motor. Este aprendizado é resultante de experiência, educação e treinamento e da interação destes fatores com processos biológicos. É correto o que se afirma em: Alternativas Alternativa 1 - II, apenas. Alternativa 2 - II e III, apenas. Alternativa 3 - I, II e IV, apenas. Alternativa 4 - II, III e IV, apenas. Alternativa 5 - I, II, III e IV. QUESTÃO 2 O desenvolvimento é um conceito mais amplo, pode ter um contexto biológico ou comportamental e, também, contempla uma variedade de domínios que se inter-relacionam conforme a criança interage com o meio cultural. Fonte: BERRIA, J.; SCHMITZ, G. M. Desenvolvimento e Aprendizagem Motora. Maringá - PR: Unicesumar, 2022. A partir do trecho exposto, e dos conteúdos estudados na disciplina, analise as afirmativas a seguir: I. O desenvolvimento da competência motora, a aquisição e o refinamento de habilidades em atividades motoras variadas fazem parte da maturação. II. No contexto comportamental, diz respeito ao crescimento de competência relacionado aos domínios cognitivo, emocional, social, moral e motor. III. No contexto biológico, o desenvolvimento está relacionado aos processos de diferenciação e especialização de células embrionárias. IV. O desenvolvimento no domínio motor, cujo progresso está relacionado à aquisição e ao refinamento de comportamentos. É correto o que se afirma em: Alternativas Alternativa 1 - I e III, apenas. Alternativa 2 - II e IV, apenas. Alternativa 3 - II, III e IV, apenas. Alternativa 4 - I, apenas. Alternativa 5 - I, II e III, apenas

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024

azulassessoria9

Slide - SAEB. língua portuguesa e matemática

sh5kpmr7w7

E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...

andreiavys

Tópicos de abordagem: - Símbolos da União Europeia (UE): > Bandeira da UE; > Dia da Europa (9 de maio); > Hino europeu; > Lema/Divisa; > Moeda. - Outros símbolos da identidade europeia: > Línguas oficiais; > Capitais Europeias da Cultura e outras; > Anos Europeus; - Mais outros elementos da identidade europeia/nacional; - Valores da UE; - Ex. de iniciativas que promovem os valores e direitos da UE; - Saber mais.. - Para também consultar... Autor: Centro de Informação Europeia Jacques Delors Fonte: https://infoeuropa.mne.gov.pt/Nyron/Library/Catalog/winlibimg.aspx?doc=55475&img=11558 Data de conceção (e atualização pontual): maio 2024.

Apresentação | Símbolos e Valores da União Europeia

Centro Jacques Delors

Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...

marcelafinkler

Caderno de exercícios Revisão para o ENEM (1).pdf

Juliana Barbosa

Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx

FlviaGomes64

Tópicos de abordagem: - Os Pais fundadores; - Símbolos da União Europeia (UE); - Declaração Schuman; - Principais marcos da construção europeia; - Tratados em vigor; - UE: os sucessivos alargamentos; - UE: um espaço de direitos para os/as cidadãos/ãs; - Os direitos de cidadania europeia. Para mais informações, consulte o portal Eurocid: - https://eurocid.mne.gov.pt/dia-da-europa Autor: Centro de Informação Europeia Jacques Delors Fonte: https://infoeuropa.mne.gov.pt/Nyron/Library/Catalog/winlibimg.aspx?doc=55462&img=11546 Data de conceção: maio 2024.

Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!

Centro Jacques Delors

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024

azulassessoria9

Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...

azulassessoria9

QUESTÃO 9 O estudo do controle motor nada mais é do que o estudo da natureza do movimento e como ele é controlado. Considerando que a vida, no sentido restrito da palavra, necessita de movimentos, as habilidades como: andar, correr, brincar só podem ser desenvolvidas quando existe movimento. Fonte: BERRIA, J.; SCHMITZ, G. M. Desenvolvimento e Aprendizagem Motora. Maringá - PR: Unicesumar, 2022. Sobre o exposto, analise as afirmativas abaixo: I. A sobrevivência, a busca pelo alimento, o trabalho, as relações com amigos e familiares acontecem quando há movimento. II. O movimento de locomoção também é realizado a partir da interação dos sistemas de percepção e ação, e a cognição influencia ambos em níveis diferentes. III. O movimento é tão importante, que na ausência dele, não só deixamos de nos desenvolver como também passamos a nos prejudicar, pois até a nossa saúde depende dele. IV. A melhor coordenação entre o que as crianças querem fazer e o que elas conseguem fazer, por exemplo, só é possível porque há o desenvolvimento das áreas sensoriais e motoras do córtex cerebral. É correto o que se afirma em: Alternativas Alternativa 1 - I, apenas. Alternativa 2 - I e II, apenas. Alternativa 3 - II e III, apenas. Alternativa 4 - I ,II e III, apenas. Alternativa 5 - I, II, III e IV.

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...

azulassessoria9

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...

azulassessoria9

Questões de Língua Portuguesa - gincana da LP

Eli Gonçalves

6ano variação linguística ensino fundamental.pptx

JssicaCassiano2

Sistema articular aula 4 (1).pdf articulações e junturas

rfmbrandao

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024

azulassessoria9

MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf

profesfrancleite

QUESTÃO 5 Aprender as diferentes formas de classificar as habilidades motoras é de extrema importância para o profissional de Educação na construção de estratégias de aprendizagem mais eficientes. Os autores Gallahue, Ozmun e Goodway, (2013) destacam a importância da utilização de modelos multidimensionais para o trabalho com a aprendizagem motora. Adaptado de: GALLAHUE, D. L.; OZMUN, J. C.; GOODWAY, J. D. Compreendendo o Desenvolvimento Motor. 3. ed. São Paulo: Phorte, 2013. MAGILL, R. A. Aprendizagem Motora: conceitos e aplicações. São Paulo: Blucher, 2000. Considerando os fatores abordados nos modelos multidimensionais, assinale a alternativa correta: Alternativas Alternativa 1 - O instrutor, o objetivo da aprendizagem, o nível de desenvolvimento do aprendiz, o nível de aprendizado da habilidade, o tipo de tarefa e a idade biológica. Alternativa 2 - O instrutor, o objetivo da aprendizagem, o nível de desenvolvimento do aprendiz, o nível de aprendizado da habilidade, a maturação e a exigência de performance. Alternativa 3 - O objetivo da aprendizagem, o nível de desenvolvimento do aprendiz, o instrutor, o nível de aprendizado da habilidade, o tipo de tarefa e a exigência de performance. Alternativa 4 - O nível de desenvolvimento do aprendiz, o nível de aprendizado da habilidade, o objetivo da aprendizagem, o tipo de tarefa a exigência de performance e a idade cronológica. Alternativa 5 - O tipo de tarefa, a exigência de performance, o instrutor, a variabilidade, objetivo da aprendizagem, o nível de desenvolvimento do aprendiz e o nível de aprendizado da habilidade.

Aprender as diferentes formas de classificar as habilidades motoras é de extr...

azulassessoria9

Multiplicação de matrizes em cuda

1. Multiplicação de Matrizes em CUDA Divino César SoaresPontifícia Universidade Católica de Goiás (CMP/PUC-GO)

3. Gerar uma matriz resultado C com as mesmas dimensões das matrizes A e B.

4. Cada elemento (i, j) da matriz C é o produto (interno) da linha i de A pela coluna j de B.

5. Para cada elemento (i, j) de C:for (k=1; k<=LARGURA; k++) C[i][j] += (A[i][k] * B[k][j]);

10.

11.

12.

13.

14. Estrutura da Solução Alocar memória na GPU. Copia dados de entrada. Da CPU para a GPU. Configura execução. Número de threads e blocos. Copia resultados. cudaMalloc((void **)&A_d, size_A); cudaMalloc((void**)&B_d, size_B); cudaMalloc((void**)&C_d, size_C); cudaMemcpy(A_d, A, size_A, cudaMemcpyHostToDevice); cudaMemcpy(B_d, B, size_B , cudaMemcpyHostToDevice); cudaMemcpy(C_d, C, size_C , cudaMemcpyHostToDevice); dim3 gride(X, Y)dim3 bloco(Z, W, K)meu_kernel<<<gride, bloco>>>(A, B, C); cudaMemcpy(C, C_d, size_C , cudaMemcpyDeviceToHost);

15. Primeira Abordagem

16. Kernel 1 dim3 gride(1, 1) dim3 bloco(4, 4, 1) dim3 gride(2, 1) dim3 bloco(4, 4, 1) dim3 gride(1, 1) dim3 bloco(30, 30, 1) Gride Gride Gride << Launcherror >>> Bloco com 600 threads Bloco 0 Bloco 0 Bloco 1

17. Kernel 1 dim3 gride(1, 1) dim3 bloco(LARGURA, LARGURA, 1) Gride LARGURA LARGURA Bloco 0

18. Kernel 1 dim3 gride(1, 1) dim3 bloco(LARGURA, LARGURA, 1) Gride __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } LARGURA LARGURA Bloco 0 Kernel 1: Multiplicação na GPU

19. Kernel 1 1 Instante de tempo t=0 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3

20. Kernel 1 1 Instante de tempo t=1 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3

21. Kernel 1 1 Instante de tempo t=2 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3

22. Kernel 1 1 Instante de tempo t=L 2 __global__voidmulGpu(int *A[], int *B[], int *C[]) { int i = threadIdx.x; int j = threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 1: Multiplicação na GPU 4 1 2 3

23.

24. Segunda Abordagem

25. Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) dim3 gride(1, 1) dim3 bloco(30, 30, 1) Gride Gride << Launcherror >>> Bloco com 600 threads Bloco 0, 0 Bloco 0, 1 Bloco 1, 0 Bloco 1, 1

26. Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) Gride Bloco 0, 0 Bloco 0, 1 225 threads por bloco.Total de 900 threads. Bloco 1, 0 Bloco 1, 1

27. Kernel 2 dim3 gride(2, 2) dim3 bloco(15, 15, 1) Gride __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } Bloco 0, 0 Bloco 0, 1 Kernel 2: Multiplicação na GPU Bloco 1, 0 Bloco 1, 1

28. Kernel 2 1 2 __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 2: Multiplicação na GPU 4 1 2 3

29. Kernel 2 1 2 __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 2: Multiplicação na GPU 4 1 2 3

30. Kernel 2 1 2 __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 2: Multiplicação na GPU 4 1 2 3

31. Kernel 2 1 Instante de tempo t=L 2 __global__void mulGpu2(int *A[], int *B[], int *C[]) { int i = blockIdx.x * SUB_LARGURA + threadIdx.x; int j = blockIdx.y * SUB_LARGURA + threadIdx.y; for (int k=1; k<=LARGURA; k++) { C[i][j] += (A[i][k] * B[k][j]); } } 3 4 Kernel 2: Multiplicação na GPU 4 1 2 3

32.

33. Dúvidas?

Multiplicação de matrizes em cuda

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (8)

Similar a Multiplicação de matrizes em cuda

Similar a Multiplicação de matrizes em cuda (6)

Último

Último (20)

Multiplicação de matrizes em cuda