SlideShare una empresa de Scribd logo
1 de 3
Descargar para leer sin conexión
Reconhecimento de Gestos em Imagens de Profundidade com
Utilização do Sensor Kinect
Rafael Miranda Guimarães*, João Victor Boechat Gomide╘
*
Universidade FUMEC
Belo Horizonte - MG – Brazil
E-mail: garfanha@gmail.com
╘
Universidade FUMEC
Belo Horizonte - MG – Brazil
E-mail: jvictor@fumec.br
Resumo - Desenvolvido pela Microsoft, o sensor
Kinect (inicialmente chamado de “Projeto Natal”)
é um dispositivo de reconhecimento de gestos e
captura de movimentos que permite o uso de
interações gestuais livres como forma de
comunicação e entretenimento. Interações
gestuais livres auxiliam no desenvolvimento de
interfaces cada vez mais imersivas e intuitivas,
proporcionando uma nova experiência ao
usuário.

Máquina (IHM) na qual, faz parte o estudo do
planejamento, avaliação e implementação de
sistemas computacionais interativos para uso
humano compreendendo todos os fenômenos a
ele relacionados [2], [3].
A alta demanda por tecnologia e a rápida
necessidade de absorção do mercado consumidor,
proporcionaram
estímulos
para
o
desenvolvimento de novas tecnologias. Tais
estímulos são responsáveis pelo elevado número
de aparatos tecnológicos disponíveis hoje para
consumo.

Palavras-chave – reconhecimento de Gestos,
interface, kinect.

a. Descrição:

I.

Introdução

Interatividade tem sido a palavra chave na
história de toda a evolução tecnológica. A cada
dia surgem no mercado novos modelos de
interação baseados no conceito de interface
natural. A interface natural de usuário ou natural
user interface (NUI) como é conhecida, trabalha
o uso da linguagem natural como ferramenta de
interação homem-máquina (IHM) [1]. Sua
aplicação consiste na utilização de um novo
modelo de interação entre o homem e o
computador com base na utilização de gestos,
posições e comandos de voz.
É válido destacarmos a importância deste
conceito hoje para o mercado, pois, muito se
ouviu dizer a respeito da necessidade de
desenvolvimento de novas tecnologias de
comunicação homem-máquina na qual, fosse
possível estabelecer um canal de comunicação
estável entre o usuário e a aplicação viabilizando
um novo modelo de interação.
Diante deste cenário, temos uma nova área
de pesquisa intitulada de Interação Homem-

O Kinect é dotado de uma câmera RGB, um
sensor de profundidade composto por um
projetor e uma câmera que usa infravermelho
capaz de mapear o ambiente em 3 dimensões,
microfones, um motor para alterar seu ângulo de
visão, e uma interface USB 2.0 para conexão
com o videogame (Xbox) ou mesmo com um PC
comum (Windows ou Linux) [6].
A figura abaixo demonstra as principais
componentes do dispositivo Kinect (figura 1):
Figure 1: O Microsoft Kinect.
Fonte: <http://goo.gl/J4XSxm>

Câmera RGB: obtém imagens coloridas numa
resolução de 640 por 480, com uma taxa de
atualização de 30 quadros por segundo. Cada
pixel é representado por 32 bits, sendo que
apenas 24 deles são usados, com cada 8
determinando o valor de uma componente [24].
Sensor de Profundidade: um emissor de luz
infravermelho espalha um padrão pseudoaleatório sobre o ambiente juntamente de um
sensor CMOS monocromático que compara a
luz refletida com um padrão gravado no
firmware. Dessa maneira, é calculado um mapa
de profundidade com resolução de 640 por 480,
a uma velocidade de 30 quadros por segundo
[24].

Seu campo de visão consiste da forma de
uma pirâmide o que incorpora algumas
limitações. Possibilita o reconhecimento de
objetos ou utilizadores de forma mais precisa
entre os 40cm e os 4m, como pode ser observado
nas figuras 3 e 4, tendo um ângulo de visão de
57º graus na horizontal e 43º graus na vertical
[25].

Figura 3 – Padrão do campo de visão vertical do Kinect.
Fonte: MICROSOFT, 2011 [35]

Microfones
multi-vetorial:
são
quatro
microfones autodirecionáveis para o usuário,
capazes de isolar o som ambiente da fala do
jogador. Também captam comandos por voz [24].
A figura abaixo ilustra o hardware do
dispositivo Kinect (figura 2).

Figure 4: Campo de Visão do Kinect
Fonte: < http://goo.gl/NFcTY>

b. Funcionamento:

Figure 2: Imagem do hardware do Kinect.
Fonte: <http://goo.gl/wjpqux>

Sua arquitetura é composta de um
acelerômetro com 3 eixos, configurado para uma
variação 2G, em que G representa a aceleração
devido à gravidade, possibilitando assim
determinar a cada instante a orientação do sensor
[25].

O Kinect é um dispositivo RGB-D, na qual,
permite a captura de imagens representando as
cores (RGB) e a profundidade de uma cena (D –
Depth). Portanto, uma cena capturada pelo
Kinect é usualmente representada por um par de
imagens de resolução 640x480, com uma
imagem em formato colorido RGB (24
bits/pixel) e a outra imagem representando a
profundidade de cada pixel (Depth). A
profundidade representa a distância dos pixels
em relação ao sensor, formando uma mapa
LxCxP (Linha x Coluna x Profundidade).
Figure 5: Imagem da câmera RGB do Kinect.
Fonte: autor do trabalho (2013)

confiável em diferentes ambientes.
Existem no mercado diversos métodos para
o reconhecimento de gestos, que vão desde a
utilização de algoritmos de sequencia de tempo
como o Dynamic Time Warping - DTW (Reyes
et ai., 2011) [27] até os chamados modelos
ocultos de Markov ou modelos Markovianos
(Hidden Markov Models - HMM) (Oliveira e
Morita, 2008) [28] na qual, trata-se de um
modelo
estatístico
com
parâmetros
desconhecidos (D. Gehrig e Schultz, 2009) [29].
Em 1999 Segen e Kumar [30] utilizaram
uma câmera e uma fonte de luz calibrada para
calcular a profundidade. Em 2004 Ferris et al.
[32] utilizaram, uma série de fontes de luz
externas para iluminar o cenário aplicando
geometria de vários ângulos de visão para
construir uma imagem de profundidade. Em uma
Referências
[1] OLIVEIRA, I. Interface de Usuário: a Interação
Homem-Computador Através dos Tempos. Disponível em:
<
https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&s
ource=web&cd=1&cad=rja&ved=0CC4QFjAA&url=http
%3A%2F%2Fwww.olharcientifico.kinghost.net%2Findex.
php%2Folhar%2Farticle%2Fview%2F28%2F29&ei=Y1B
MUplnjPDwBIGOgYAC&usg=AFQjCNG4B2GrSLr5FQ
w3XKXEsGHNz-BQHA&bvm=bv.53371865,d.eWU
>
Acesso em Set. 2013

Figure 6: Imagem da câmera de Profundidade do Kinect.
Fonte: autor do trabalho (2013)

c. Reconhecimento de gestos e captura de
movimentos
Seria conveniente que computadores
pudessem compreender instruções de comando
fornecido pelos usuários de forma simples ao
invés de procedimentos manuais de comando
baseados em digitação ou sucessivos cliques do
mouse para acesso as opções de menus [26].
O reconhecimento de gestos tem assumido
um papel cada vez mais importante na área de
pesquisa ativa (Liang e Ouhyoung, 1998; D.
Gehrig e Schultz, 2009; Reyes et al, 2011;.
Wilson e Bobick, 1999) [46], [47], [48], [49], na
qual, envolve o uso de técnicas de aprendizagem
de máquina e capacidade de atuação de forma

[2] Hewett. Curricula for Human-Computer Interaction.
The Association for Computing Machinery, Special
Interest Group on Computer Human Interaction. [Online]
2009.
Disponível
em:
<
http://old.sigchi.org/cdg/cdg2.html#2_1 > Acesso em Set.
2013.
[3] PRATES, R.; BARBOSA, S. Capítulo 6. Avaliação de
Interfaces de Usuário – Conceitos e Métodos.
Disponível
em:
<
http://homepages.dcc.ufmg.br/~rprates/ge_vis/cap6_vfinal.
pdf> Acesso em Set. 2013.
[4] TALARICO, S. Reconhecimento de gestos: tecnologia
em evolução. Business Review Brasil. 15 de Abril de
2013. Disponível em: < http://goo.gl/K3pOBU> Acesso
em: 12 set. 2013. [Portal de notícias]
[5] Biblioteca de Funções para Utilização do Kinect em
Jogos Eletrônicos e Aplicações NUI

Más contenido relacionado

Similar a Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect

Desenvolvendo Aplicativos para o Kinect
Desenvolvendo Aplicativos para o KinectDesenvolvendo Aplicativos para o Kinect
Desenvolvendo Aplicativos para o KinectBruno Campagnolo
 
Apresentacao minicursofinal
Apresentacao minicursofinalApresentacao minicursofinal
Apresentacao minicursofinalAlmerindo Rehem
 
Computação grafica
Computação graficaComputação grafica
Computação graficaLucas Castro
 
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)Dra. Camila Hamdan
 
DelphiConferenceBrasil2011 Delphi + Kinect
DelphiConferenceBrasil2011 Delphi + KinectDelphiConferenceBrasil2011 Delphi + Kinect
DelphiConferenceBrasil2011 Delphi + KinectVic Fernandes
 
Apresentacao tcc_kinect hack na domotica
Apresentacao tcc_kinect hack na domoticaApresentacao tcc_kinect hack na domotica
Apresentacao tcc_kinect hack na domoticaLuiz Gustavo
 
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...Dra. Camila Hamdan
 
Teoriadainteractividade
TeoriadainteractividadeTeoriadainteractividade
TeoriadainteractividadePelo Siro
 
Eue09 Unitelco Ana Soares
Eue09 Unitelco Ana SoaresEue09 Unitelco Ana Soares
Eue09 Unitelco Ana SoaresAna Soares
 
Adaptando e desenvolvendo jogos para uso com o Microsoft Kinect
Adaptando e desenvolvendo jogos para uso com o Microsoft KinectAdaptando e desenvolvendo jogos para uso com o Microsoft Kinect
Adaptando e desenvolvendo jogos para uso com o Microsoft KinectBruno Campagnolo
 
Computação Gráfica - Artquitetura de Dispositivos Gráficos
Computação Gráfica - Artquitetura de Dispositivos GráficosComputação Gráfica - Artquitetura de Dispositivos Gráficos
Computação Gráfica - Artquitetura de Dispositivos GráficosTony Alexander Hild
 
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...Pedro Henrique Cacique Braga
 
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...Integração dos padrões MPEG na construção de ambientes de realidade virtual e...
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...Estêvão Bissoli Saleme
 

Similar a Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect (20)

Desenvolvendo Aplicativos para o Kinect
Desenvolvendo Aplicativos para o KinectDesenvolvendo Aplicativos para o Kinect
Desenvolvendo Aplicativos para o Kinect
 
Apresentacao minicursofinal
Apresentacao minicursofinalApresentacao minicursofinal
Apresentacao minicursofinal
 
Computação grafica
Computação graficaComputação grafica
Computação grafica
 
Realidade Aumentada - Sociesc 2011
Realidade Aumentada - Sociesc 2011Realidade Aumentada - Sociesc 2011
Realidade Aumentada - Sociesc 2011
 
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)
Jogos em Realidade Aumentada (Projeto PIBITI 2015-2016)
 
Processamento de Imagens
Processamento de ImagensProcessamento de Imagens
Processamento de Imagens
 
Seminario Kinect
Seminario KinectSeminario Kinect
Seminario Kinect
 
DelphiConferenceBrasil2011 Delphi + Kinect
DelphiConferenceBrasil2011 Delphi + KinectDelphiConferenceBrasil2011 Delphi + Kinect
DelphiConferenceBrasil2011 Delphi + Kinect
 
CGPI Aula 27/08/2018
CGPI Aula 27/08/2018CGPI Aula 27/08/2018
CGPI Aula 27/08/2018
 
Apresentacao tcc_kinect hack na domotica
Apresentacao tcc_kinect hack na domoticaApresentacao tcc_kinect hack na domotica
Apresentacao tcc_kinect hack na domotica
 
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...
Pesquisa e desenvolvimento de maquetes eletrônicas 3D a serem utilizadas em r...
 
CGPI - Aula 20/08/2018
CGPI - Aula 20/08/2018CGPI - Aula 20/08/2018
CGPI - Aula 20/08/2018
 
Teoriadainteractividade
TeoriadainteractividadeTeoriadainteractividade
Teoriadainteractividade
 
Eue09 Unitelco Ana Soares
Eue09 Unitelco Ana SoaresEue09 Unitelco Ana Soares
Eue09 Unitelco Ana Soares
 
Adaptando e desenvolvendo jogos para uso com o Microsoft Kinect
Adaptando e desenvolvendo jogos para uso com o Microsoft KinectAdaptando e desenvolvendo jogos para uso com o Microsoft Kinect
Adaptando e desenvolvendo jogos para uso com o Microsoft Kinect
 
Computação Gráfica - Artquitetura de Dispositivos Gráficos
Computação Gráfica - Artquitetura de Dispositivos GráficosComputação Gráfica - Artquitetura de Dispositivos Gráficos
Computação Gráfica - Artquitetura de Dispositivos Gráficos
 
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...
Uma Estratégia de Desenvolvimento de Sistemas para Mobile-learning usando Rea...
 
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...Integração dos padrões MPEG na construção de ambientes de realidade virtual e...
Integração dos padrões MPEG na construção de ambientes de realidade virtual e...
 
Apresentacao KINECT
Apresentacao KINECTApresentacao KINECT
Apresentacao KINECT
 
Desenvolvendo com Kinect
Desenvolvendo com KinectDesenvolvendo com Kinect
Desenvolvendo com Kinect
 

Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect

  • 1. Reconhecimento de Gestos em Imagens de Profundidade com Utilização do Sensor Kinect Rafael Miranda Guimarães*, João Victor Boechat Gomide╘ * Universidade FUMEC Belo Horizonte - MG – Brazil E-mail: garfanha@gmail.com ╘ Universidade FUMEC Belo Horizonte - MG – Brazil E-mail: jvictor@fumec.br Resumo - Desenvolvido pela Microsoft, o sensor Kinect (inicialmente chamado de “Projeto Natal”) é um dispositivo de reconhecimento de gestos e captura de movimentos que permite o uso de interações gestuais livres como forma de comunicação e entretenimento. Interações gestuais livres auxiliam no desenvolvimento de interfaces cada vez mais imersivas e intuitivas, proporcionando uma nova experiência ao usuário. Máquina (IHM) na qual, faz parte o estudo do planejamento, avaliação e implementação de sistemas computacionais interativos para uso humano compreendendo todos os fenômenos a ele relacionados [2], [3]. A alta demanda por tecnologia e a rápida necessidade de absorção do mercado consumidor, proporcionaram estímulos para o desenvolvimento de novas tecnologias. Tais estímulos são responsáveis pelo elevado número de aparatos tecnológicos disponíveis hoje para consumo. Palavras-chave – reconhecimento de Gestos, interface, kinect. a. Descrição: I. Introdução Interatividade tem sido a palavra chave na história de toda a evolução tecnológica. A cada dia surgem no mercado novos modelos de interação baseados no conceito de interface natural. A interface natural de usuário ou natural user interface (NUI) como é conhecida, trabalha o uso da linguagem natural como ferramenta de interação homem-máquina (IHM) [1]. Sua aplicação consiste na utilização de um novo modelo de interação entre o homem e o computador com base na utilização de gestos, posições e comandos de voz. É válido destacarmos a importância deste conceito hoje para o mercado, pois, muito se ouviu dizer a respeito da necessidade de desenvolvimento de novas tecnologias de comunicação homem-máquina na qual, fosse possível estabelecer um canal de comunicação estável entre o usuário e a aplicação viabilizando um novo modelo de interação. Diante deste cenário, temos uma nova área de pesquisa intitulada de Interação Homem- O Kinect é dotado de uma câmera RGB, um sensor de profundidade composto por um projetor e uma câmera que usa infravermelho capaz de mapear o ambiente em 3 dimensões, microfones, um motor para alterar seu ângulo de visão, e uma interface USB 2.0 para conexão com o videogame (Xbox) ou mesmo com um PC comum (Windows ou Linux) [6]. A figura abaixo demonstra as principais componentes do dispositivo Kinect (figura 1):
  • 2. Figure 1: O Microsoft Kinect. Fonte: <http://goo.gl/J4XSxm> Câmera RGB: obtém imagens coloridas numa resolução de 640 por 480, com uma taxa de atualização de 30 quadros por segundo. Cada pixel é representado por 32 bits, sendo que apenas 24 deles são usados, com cada 8 determinando o valor de uma componente [24]. Sensor de Profundidade: um emissor de luz infravermelho espalha um padrão pseudoaleatório sobre o ambiente juntamente de um sensor CMOS monocromático que compara a luz refletida com um padrão gravado no firmware. Dessa maneira, é calculado um mapa de profundidade com resolução de 640 por 480, a uma velocidade de 30 quadros por segundo [24]. Seu campo de visão consiste da forma de uma pirâmide o que incorpora algumas limitações. Possibilita o reconhecimento de objetos ou utilizadores de forma mais precisa entre os 40cm e os 4m, como pode ser observado nas figuras 3 e 4, tendo um ângulo de visão de 57º graus na horizontal e 43º graus na vertical [25]. Figura 3 – Padrão do campo de visão vertical do Kinect. Fonte: MICROSOFT, 2011 [35] Microfones multi-vetorial: são quatro microfones autodirecionáveis para o usuário, capazes de isolar o som ambiente da fala do jogador. Também captam comandos por voz [24]. A figura abaixo ilustra o hardware do dispositivo Kinect (figura 2). Figure 4: Campo de Visão do Kinect Fonte: < http://goo.gl/NFcTY> b. Funcionamento: Figure 2: Imagem do hardware do Kinect. Fonte: <http://goo.gl/wjpqux> Sua arquitetura é composta de um acelerômetro com 3 eixos, configurado para uma variação 2G, em que G representa a aceleração devido à gravidade, possibilitando assim determinar a cada instante a orientação do sensor [25]. O Kinect é um dispositivo RGB-D, na qual, permite a captura de imagens representando as cores (RGB) e a profundidade de uma cena (D – Depth). Portanto, uma cena capturada pelo Kinect é usualmente representada por um par de imagens de resolução 640x480, com uma imagem em formato colorido RGB (24 bits/pixel) e a outra imagem representando a profundidade de cada pixel (Depth). A profundidade representa a distância dos pixels em relação ao sensor, formando uma mapa LxCxP (Linha x Coluna x Profundidade).
  • 3. Figure 5: Imagem da câmera RGB do Kinect. Fonte: autor do trabalho (2013) confiável em diferentes ambientes. Existem no mercado diversos métodos para o reconhecimento de gestos, que vão desde a utilização de algoritmos de sequencia de tempo como o Dynamic Time Warping - DTW (Reyes et ai., 2011) [27] até os chamados modelos ocultos de Markov ou modelos Markovianos (Hidden Markov Models - HMM) (Oliveira e Morita, 2008) [28] na qual, trata-se de um modelo estatístico com parâmetros desconhecidos (D. Gehrig e Schultz, 2009) [29]. Em 1999 Segen e Kumar [30] utilizaram uma câmera e uma fonte de luz calibrada para calcular a profundidade. Em 2004 Ferris et al. [32] utilizaram, uma série de fontes de luz externas para iluminar o cenário aplicando geometria de vários ângulos de visão para construir uma imagem de profundidade. Em uma Referências [1] OLIVEIRA, I. Interface de Usuário: a Interação Homem-Computador Através dos Tempos. Disponível em: < https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&s ource=web&cd=1&cad=rja&ved=0CC4QFjAA&url=http %3A%2F%2Fwww.olharcientifico.kinghost.net%2Findex. php%2Folhar%2Farticle%2Fview%2F28%2F29&ei=Y1B MUplnjPDwBIGOgYAC&usg=AFQjCNG4B2GrSLr5FQ w3XKXEsGHNz-BQHA&bvm=bv.53371865,d.eWU > Acesso em Set. 2013 Figure 6: Imagem da câmera de Profundidade do Kinect. Fonte: autor do trabalho (2013) c. Reconhecimento de gestos e captura de movimentos Seria conveniente que computadores pudessem compreender instruções de comando fornecido pelos usuários de forma simples ao invés de procedimentos manuais de comando baseados em digitação ou sucessivos cliques do mouse para acesso as opções de menus [26]. O reconhecimento de gestos tem assumido um papel cada vez mais importante na área de pesquisa ativa (Liang e Ouhyoung, 1998; D. Gehrig e Schultz, 2009; Reyes et al, 2011;. Wilson e Bobick, 1999) [46], [47], [48], [49], na qual, envolve o uso de técnicas de aprendizagem de máquina e capacidade de atuação de forma [2] Hewett. Curricula for Human-Computer Interaction. The Association for Computing Machinery, Special Interest Group on Computer Human Interaction. [Online] 2009. Disponível em: < http://old.sigchi.org/cdg/cdg2.html#2_1 > Acesso em Set. 2013. [3] PRATES, R.; BARBOSA, S. Capítulo 6. Avaliação de Interfaces de Usuário – Conceitos e Métodos. Disponível em: < http://homepages.dcc.ufmg.br/~rprates/ge_vis/cap6_vfinal. pdf> Acesso em Set. 2013. [4] TALARICO, S. Reconhecimento de gestos: tecnologia em evolução. Business Review Brasil. 15 de Abril de 2013. Disponível em: < http://goo.gl/K3pOBU> Acesso em: 12 set. 2013. [Portal de notícias] [5] Biblioteca de Funções para Utilização do Kinect em Jogos Eletrônicos e Aplicações NUI