SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Revisão Bibliográca - Sistemas de
                       Recomendação
                               E. Q. Silva



      Technical Report    -   RT-INF_006-11      -   Relatório Técnico
                     October    -   2011   -   Outubro




 The contents of this document are the sole responsibility of the authors.

O conteúdo do presente documento é de única responsabilidade dos autores.




                   Instituto de Informática
                 Universidade Federal de Goiás
                              www.inf.ufg.br
Revisão Bibliográfica - Sistemas de Recomendação
                    Edjalma Queiroz da Silva ∗            Celso G. Camilo Jr †
                   edjalma@ambientinformatica.com.br         celso@inf.ufg.br




1        Introdução
      O acesso a novas tecnologias de informação de maneira cada vez mais fácil, contribui
para o crescimento exponencial no volume de dados e o seu tratamento em tempo útil tornou-se
inexequível. Para se ter uma ideia deste crescimento, em três anos (período entre 2005 e 2008)
o percentual de brasileiros de dez anos ou mais de idade que acessaram ao menos uma vez a
Internet pelo computador aumentou 75, 3%, passando de 20, 9% para 34, 8% das pessoas nessa
faixa etária, ou 56 milhões de usuários, em 2008. No mesmo período, a proporção dos que
tinham telefone celular para uso pessoal passou de 36, 6% para 53, 8% da população de dez
anos ou mais de idade, sendo que, para 44, 7% dessas pessoas (ou cerca de 38,6 milhões de
brasileiros), o celular era o único telefone para uso pessoal. Os números são do Suplemento da
Pesquisa Nacional por Amostra de Domicílios (Pnad) 2008 sobre Acesso à Internet e Posse de
Telefone Móvel Celular para Uso Pessoal.
      Este crescimento impulsiona o surgimento de um fenômeno complexo que abarca o con-
junto de novas tecnologias de comunicação mais participativas, mais rápidas e mais populares
e as apropriações sociais que foram e que são geradas em torno dessas ferramentas. É um
momento de hiperconexão em rede, onde estamos não apenas conectados, mas onde transcreve-
mos nossos grupos sociais e, através do suporte, geramos novas formas de circulação, filtragem
e difusão dessas informações.
      O paradigma da web social pode ser observado na manifestação de uma crescente tendên-
cia em explorar, de maneira explícita ou implícita, a riqueza dos elos que se firmam com a
interação social mediada pelas tecnologias de informação. Essa mudança de paradigma revela-
se também no desenvolvimento e no crescimento de popularidade de uma nova classe de apli-
cações para web, a exemplo dos sistemas colaborativos para produção de conhecimento (e.g.
enciclopédias livres).[11]
      A rede mundial de computadores vivencia o processo de transformação de um “mar de
documentos” em um “mar de conhecimento”, sistemas que entendam como fazer o melhor uso
da informação, representa um “conselheiro” para os usuários, passando a conquistar sua con-
fiança e possibilitando o aumento de valores de vendas para as empresas, através da qualidade
das recomendações apresentadas.
      Um dos objetivos da maioria das empresas é proporcionar a melhor experiência de compra
aos seus clientes. Pode-se elencar desde fatores concretos, como preço e prazo de pagamento,
até questões subjetivas, como qualidade do produto, tempo de entrega, tratamento individual-
izado para dizer o que está relacionado com à experiência de compra. Com a grande variedade
    ∗
        Mestrando em Ciência da Computação, INF-UFG
    †
        Orientador


                                                      1
Revisão Bibliográfica - Sistemas de Recomendação                                             2



de produtos e serviços e entre as várias alternativas que lhe são apresentadas, as pessoas se
esbarram na dificuldade em tomar uma decisão. Surgem os “sistemas de recomendação” com-
putacionais, que têm por objetivo reduzir a sobrecarga de informação, através da seleção de
conteúdo baseado em preferências do usuário. Além disso sistemas de compras se apoiam em
experiência de compra (bem ou mal sucedida) dos usuários para sugerir (recomendar) produtos
à outros usuários que estão de alguma forma relacionados.
      Esses sistemas têm sido classificados em três categorias no que tange à abordagem uti-
lizada para recomendação [3]:

    1. Abordagem baseada em conteúdo, nos quais são recomendados itens similares com aque-
       les que o usuário mostrou preferência no passado;

    2. Abordagem colaborativa, na qual são recomendados itens escolhidos por pessoas com
       preferências similares às do usuário e;

    3. Abordagens híbridas, que de alguma forma combinam técnicas na tentativa de solucionar
       alguns problemas potenciais das abordagens puras anteriores.

      Dizer aqui o que será tratado neste artigo.


2     Personalização através de Sistemas de Recomendação
      A adequação de um produto ou serviço para atender as necessidades de um indivíduo po-
dem trazer várias vantagens. Por exemplo, através da constante seleção de conteúdos relaciona-
dos aos interesses do usuário, um sistema personalizado pode reduzir o tempo em estes levam
para encontrar informações relevantes. O tratamento individualizado do usuário em sistema
computacional necessita de um conjunto específico de funções. Enquanto o usuário navega no
sistema, toda sua interação deve ser monitorada de alguma forma como citado em 3.2. A apre-
sentação do documento pode ser modificada de modo a sugerir ao usuário os próximos passos.
Em um contexto geral os sistemas de recomendação conseguem solucionar este problema com
a criação de uma página personalizada por usuário, ou seja, cada usuário possui sua “própria”
home page. Nestas páginas o sistema adicionam, removem, modificam e reorganizam links com
o intuito de apresentar, esconder ou enfatizar fragmentos de uma página, assegurando que seu
conteúdo inclua informação apropriada para o usuário em questão.
      Desta forma a probabilidade de que um usuário acesse ou adquira um item é bem maior
do que em sistemas não personalizados. Do ponto de vista empresarial e adotando esta abor-
dagem sistemática de “recomendar” itens mais interessantes para o usuário, o sistema consegue
“fidelizar” um cliente pois representa um “conselheiro” para os usuários, passando a conquistar
sua confiança e possibilitando o aumento de valores de vendas para as empresas, através da
qualidade das recomendações apresentadas.
      Os Sistemas de Recomendação são grandes aliados da personalização de sistemas com-
putacionais, principalmente na plataforma web. Da literatura, a definição do termo “sistema de
recomendação” varia de acordo com o autor. Alguns pesquisadores usam “filtragem colabo-
rativa” e “Filtragem social”[4]. Inversamente, outros “sistema de recomendação”, e “filtragem
social” tratam “sistema de recomendação”, como um descritor genérico que representa diversas
recomendação/previsões técnicas, incluindo colaboração, social e filtragem baseada em con-
teúdo, redes Bayesianas e regras de associação [22, 8].
Revisão Bibliográfica - Sistemas de Recomendação                                               3



3       Usuário e o seu perfil
       Para que seja possível recomendar produtos, serviços ou pessoas a um usuário é
necessário ter-se conhecimento sobre quem é este usuário. Antes mesmo de pensar em cap-
turar e armazenar suas informações pessoais e comportamentais é necessário identificar qual
o tipo de informação será relevante para a geração da recomendação visando uma eficiente
personalização dos produtos, serviços e pessoas. Para a correta geração da recomendação a
definição do perfil do usuário e coleta de informações é imprescindível.[6]
       De acordo com (Cazella et al. 2010) [6] para a formação de perfis de usuários é necessário
estar atento a 3 aspectos que serão tratados nas próximas seções.

3.1 Identidade do Usuário
       Note que no mundo virtual onde não há presença física e consequentemente não há per-
cepção de características sutis da Identidade, várias pistas que possivelmente identificariam
dicas de preferências, comportamentos, habilidades sociais, entre outras, são ausentes, ao con-
trário do que ocorre no mundo real [9]. Donath [10] afirma que conhecer a Identidade da
pessoa é vital para uma adequada personalização de uma ambiente no mundo virtual. Giddens
[12] concorda que sem experiências sociais o “eu” não pode internalizar evolução. Giddens
ainda afirma que a identidade de um individuo não é estática, ela pode ser representada em con-
stante evolução, principalmente porque o componente social é dinâmico e esta sempre sendo
modificado.
       Considerando a identidade como um canal importante onde as características objetivas e
subjetivas das pessoas emergem, denomina-se de fundamental importância seu uso em Sistemas
de Recomendação no intuito de fornecer pistas sobre os futuros comportamentos e necessidades
dos usuários em um dado ambiente onde a personalização se faz eficaz, por exemplo.

3.1.1    Perfil de Usuário
      Donath [9] afirma que para a formação eficiente de uma Identidade Virtual é crucial que
o usuário tenha definida sua Identidade Interna e sua Identidade Social. No mundo virtual a
Identidade Interna do usuário é definida por ele próprio similar ao mundo real (algumas vezes
também é descoberta através de técnicas de Machine Learning). Enquanto a Identidade Social é
definida pelos outros membros do mundo virtual. Tanto a Identidade Interna, como a Identidade
Social são armazenadas no Perfil do Usuário.
      Perfis de Usuários são conceitos aproximados, eles refletem o interesse do usuário com
relação a vários assuntos em um momento particular. Cada termo que um Perfil de Usuário
expressa é, num certo grau, características de um usuário particular [7] incluindo todas as in-
formações diretamente solicitadas a ele e aprendidas implicitamente durante sua interação na
web [19]. Fisicamente, o Perfil do Usuário pode ser visto como uma base de dados onde a
informação sobre o usuário, incluindo seus interesses e preferências, é armazenada e pode ser
dinamicamente mantido [7].

3.1.2    Reputação
      A reputação pode ser definida como o retorno social recebido sobre a personalidade de
alguém. A reputação pode ser compatível ou não com a descrição feita no Perfil de Usuário. A
reputação ajuda as pessoas escolherem parceiros confiáveis no mundo virtual que são credíveis
Revisão Bibliográfica - Sistemas de Recomendação                                                               4



no mundo real. Geralmente nas redes de Reputação, os usuários encorajam os comportamentos
confiáveis discriminando a participação de pessoas desabilitadas moralmente ou desonestas.[6]
      Em processos comerciais, como por exemplo, no eBay [17, 16] um consumidor compra
um certo produto de alguém. Depois disso, ele deixa um feedback sobre o produto comprado e,
ou o comportamento do vendedor durante o processo de venda.
      Em contraste, em situações sociais como, por exemplo, Orkut, IKarma, Opinity, LinkedIn,
Mendeley [5], usuários são membros de comunidades virtuais ou redes sociais. Eles são capazes
de coletar gerenciar e promover Reputação de usuário entre seus clientes e contatos da comu-
nidade ou rede. Isto é, usuários (prestadores de serviço) que tem profile na Rede de Reputação,
que é também uma rede social podem ser “tagged” e rankeados pelos seus clientes e, ou con-
tatos. Usuários podem ser encontrados através de tags em e-mail ou, também, alguém pode
encontrar um contato de um prestador de serviço simplesmente procurando em tags na própria
rede de reputação.

3.2 Coleta de Informações
      Hoje é bastante comum no mundo dos negócios a coleta de informações do usuário. Ao
abrir uma conta bancária, adquirir um bem imobilizado ou até para fazer uma compra pela
internet por exemplo, é exigido que o cliente forneça dados pessoais como nome, endereço,
telefone, etc, até números de documentos. E isso se torna importante para se ter conhecimento
sobre quem é este usuário.
      Diante deste fato é necessário identificar o usuário no momento em que ele acessa o sis-
tema onde foram implantadas as rotinas de recomendação. De acordo com [20] há duas formas
mais habituais de identificação de usuário. A primeira é a Identificação no servidor, que nor-
malmente disponibiliza ao usuário uma área de cadastro com informações pessoais, tais como:
nome, data de nascimento e outros. Além disso, solicita obrigatoriamente um login1 e senha.
Este mecanismo permite que o web site identifique com mais precisão o usuário que nele se
conecta. A segunda forma é a Identificação no cliente, que normalmente utiliza cookies2 , um
mecanismo pelo qual um web site consegue identificar que determinado computador está se
conectando mais uma vez a ele. Este método assume que a máquina conectada é utilizada sem-
pre pela mesma pessoa. Trata de um mecanismo mais simples que o primeiro, porém menos
confiável, principalmente se o computador identificado for utilizado por mais de uma pessoa.
Ainda de acordo com [20] depois de identificar o usuário, é possível coletar dados sobre este
de forma implícita ou explícita. Na modalidade de coleta explícita o usuário indica espontanea-
mente o que lhe é importante. Por exemplo, o usuário pode indicar suas seções favoritas em
uma livraria virtual são Design e Música.
      Na modalidade implícita, através de ações do usuário infere-se informações sobre suas
necessidades e preferências. Por exemplo, armazenando-se dados de navegação do usuário
(páginas consultadas, produtos visualizados, etc) é possível detectar que ele se interessa por A
    1
      De acordo com a Wikipédia : Em termos informáticos, Login (derivado do inglês log in, sendo por vezes
também utilizada a alternativa sign in) define o processo através do qual o acesso a um sistema informático é
controlado através da identificação e autenticação do utilizador através de credenciais fornecidas por esse mesmo
utilizador. Essas credenciais são normalmente constituídas por um Nome de Utilizador ou apenas Utilizador (do
inglês username) e uma Palavra-passe ou Senha (do inglês Password) - ocasionalmente, dependendo do sistema,
apenas é pedida a Senha.
    2
      De acordo com a Wikipédia: Cookie (do inglês, literalmente: bolacha), testemunho de conexão, ou simples-
mente, testemunho é um grupo de dados trocados entre o navegador e o servidor de páginas, colocado num arquivo
(ficheiro) de texto criado no computador do utilizador. A sua função principal é a de manter a persistência de
sessões HTTP.
Revisão Bibliográfica - Sistemas de Recomendação                                               5



ou B.




               Figura 1: Exemplo de recomendação do website da Amazon.com

      Utilizando-se desta estratégia é possível conhecer melhor a preferência dos usuários sem
que eles tenham que fornecer informações explicitamente, e em seguida utilizar estes dados
para fazer recomendações. A figura 1 mostra uma página da Amazon.com personalizada para
um usuário que se mostra interessado por diversos assuntos listados na parte inferior da página.

3.3 Privacidade em Sistemas de Recomendação
       Pesquisas mostram que a maior parte dos usuários está disposta a fornecer informações
suas para que possam receber ofertas personalizadas. No entanto, o censo americano mostra que
75% dos usuários daquele país se preocupam com a possível divulgação de dados que fornecem
às empresas [2]. Os usuários buscam sempre conhecer os objetivos da coleta de dados e se
estes dados serão fornecidos a terceiros. A figura 2 mostra uma coleta de dados incentivando a
participação do usuário para que as recomendações feitas a ele sejam mais eficientes.
       Ao analisar a informação anterior notamos que não teria problema algum se as empre-
sas que empregam Sistemas de Recomendação tivessem uma coleta de dados associada a uma
política de privacidade adequada. Porém, não é incomum encontrar empresas que, além de
coletar dados para personalizar o relacionamento com seus clientes, vendam estes dados para
outras empresas, uma prática que alimenta o aumento de spam. Estas atitudes prejudicam o
relacionamento com o cliente e aumentam a distância entre estes e a empresa.
       A figura 3 mostra um trecho da página contendo a política de privacidade do serviço de
coleta de dados para melhoria das recomendações do website da Amazon.com. Sites como este
cumprem uma exigência legal, que visa garantir que uma empresa agirá com honestidade e
protegerá as informações dos seus clientes.
       Algumas instituição com a preocupação de transmitir ao usuário uma melhor reputação
(seção 3.1.2) trabalham com selos que garantem que a política de privacidade é adequada e
cumprida com rigor. A figura 4 apresenta dois destes selos, fornecidos por grandes instituições
na área (TRUSTe, BBBOnline).
Revisão Bibliográfica - Sistemas de Recomendação                                              6




Figura 2: Exemplo de Coleta de Dados para melhoria das recomendações do website da Sub-
marino




                Figura 3: Política de privacidade do website da Amazon.com.

      Apesar das garantias oferecidas por estas instituições, questiona-se o fato de que muitas
vezes os padrões exigidos não são rígidos o suficiente, e as estratégias de controle das normas
não são rigorosas [1].
Revisão Bibliográfica - Sistemas de Recomendação                                             7




                               Figura 4: Selos de Privacidade.

4    Estratégias de Recomendação
      Dizemos que o principal objetivo dos Sistemas de Recomendação é a fidelização do
cliente para uma dada empresa, trazendo para esta benefícios como a lucratividade. Para tal,
empresas investem em sistemas que trata cada usuário como sendo único, para que isso ocorra
existem diversas técnicas como à lista de Produtos Recomendados, itens Semelhantes e Mala
Direta Personalizada, que são descritas abaixo:

    • Lista de Produtos Recomendados: é uma técnica bem simples que gera uma lista de
      produtos por algum critério de avaliação, como: mais vistos, mais vendidos, lista de
      interesse, dentre outros. Dessa forma o sistema mostra para todos os usuários a mesma
      lista sem nenhuma personalização da mesma.

    • Itens Semelhantes: é uma técnica que recomenda produtos semelhantes ao que está sendo
      comprado pelo usuário. O sistema varre o banco de dados em busca de produtos que já
      foram vistos, avaliados ou comprados por este ou outros usuários que se assemelha de
      alguma forma ao item corrente.

    • Mala Direta Personalizada: é uma técnica baseada em contato direto com o usuário
      através do email. Este contato pode se dar por algum motivo, mas sempre baseado no
      interesse do usuário, tal como: produto indisponível e que passou estar disponível, pro-
      moção de algum produto, recomendação de algum item baseado na técnica “Itens Semel-
      hantes”, dentre outras.

      Por considerarmos mais importante daremos destaque a quatro estratégias de recomen-
dação que serão apresentadas nas próximas subseções. O Sistemas de Recomendação realizam
“filtragens” para definir quais produtos serão recomendados a cada perfil de usuário, esse ato é
conhecido como Técnicas de Recomendação e será tratado na seção 5.

4.1 Reputação do Produto
      Um grande exemplo de empresas que se apoiam neste mecanismo são as empresas que
exploram o mercado de comércio eletrônico. Elas utilizam Sistemas de Recomendação baseada
no uso das avaliações dos usuários sobre um produto para estabelecer qual é grau de satisfação
que este produto representa para pessoas que o compraram. A eficiência deste tipo de abor-
dagem está relacionada com a ideia de que as pessoas que compraram o produto voltarão ao
site para avaliar o produto adquirido e publicar sua opinião, acreditando assim na veracidade
das informações fornecidas. Alguns sistemas utilizam da técnica de incentivo dando ao usuário
brindes, descontos entre outros, para estimular usuários a contribuir com as suas opiniões.
Revisão Bibliográfica - Sistemas de Recomendação                                            8




  Figura 5: Avaliação de um Ar-Condicionado no site do Carrefour www.carrefour.com.br.

4.2 Recomendação por Associação
     É um outro tipo de recomendação bastante utilizado por web sites de comércio eletrônico.
Em uma base de dados que contem as avaliações dos produtos descrita em 4.1, o sistema con-
segue encontrar associação entre os produtos e recomendar estes produtos para o usuário os
produtos com as melhores avaliações ao que ele demonstrou interesse.




       Figura 6: Recomendação por Associação no site da Amazon www.amazon.com.

      Esta apresentação é a implementação do termo, “Clientes que compraram este item tam-
bém comprou. . . ”. No exemplo mostrado na figura 6, a partir da seleção de um Livro sobre
“Mineração de Dados em Redes Sociais”, o sistema apresentou itens similares de interesse do
usuário.

4.3 Associação por Conteúdo
      A associação por conteúdo faz a recomendação de duas formas, a primeira é a recomen-
dação de objetos classificados no perfil do usuário e a segunda é a recomendação de objetos
similares aos objetos que o usuário já comprou.
      Para a primeira forma de recomendação é feito o uso da avaliação do conteúdo de um
determinado item, por exemplo, um autor, um compositor ou uma outra propriedade especí-
fica. Os itens que possuírem maior “ranking” e que se encaixem no critério de busca serão
recomendados para o usuário.
Revisão Bibliográfica - Sistemas de Recomendação                                               9



      Independente da forma escolhida, a recomendação neste tipo de técnica trabalha em um
escopo mais restrito e sempre vai retornar produtos bastante similar ao que o usuário está visu-
alizando. Ela se baseia na ideia de busca de produto por algum critério importante mostrando
para o usuário os itens de maior relevância.




    Figura 7: Recomendação por Associação no site da Submarino www.submarino.com.br.

      Na exemplo ilustrado na figura 7 a partir da seleção de um câmera fotográfica outras
câmeras são apresentados. Note que não são apresentados produtos como filmadoras, celulares
e notebooks que também tem a função de câmera fotográfica, porém não sendo este o foco
principal destes tipos de produtos não entrando assim no critério de seleção.

4.4 Análise de Sequências de Ações
       Assim como ocorre na medicina, administração, no direito e em outros domínios a análise
de Sequências de Ações é um tipo importante de coleta de informações. De acordo com [6] na
web, sequências podem ser utilizadas para capturar o comportamento de usuários através de
históricos de atividade temporal, como em weblogs e histórico de compras de clientes. As in-
formações encontradas nestas sequências temporais podem ser empregadas nas identificações
de padrões de navegação e consumo, que em seguida podem servir aos Sistemas de Recomen-
dação.
       Ainda de acordo com [6] alguns algoritmos buscam agrupar as sequências de ações em
clusters como forma de identificar e representar os padrões de comportamentos encontrados
nos dados. Por exemplo, representam padrões de sequências em grafos não direcionados e
utilizam algoritmos evolucionários com múltiplos objetivos como no processo clusterização.
No entanto, um dos algoritmos mais conhecidos na análise de sequência de ações é o SPADE
(Sequential PAttern Discovery using Equivalence classes - Descoberta de Padrões Sequenciais
utilizando classes equivalentes). O algoritmo busca associar a cada sequencia encontrada uma
lista de objetos nos quais ela ocorre. Através deste mecanismo a busca por objetos e sequências
é otimizada. O algoritmo também reduz o número de varreduras na busca por padrões, o que
implica em um tempo de execução menor.


5    Técnicas de Recomendação
      Sistemas de Recomendação como dito na seção 4 funcionam como um conselheiro, se
comportando de tal maneira a guiar as pessoas em suas descobertas de produtos que podem vir
a gostar, agindo assim como um amigo que lhe recomenda um livro ou um restaurante.
Revisão Bibliográfica - Sistemas de Recomendação                                             10



      As Técnicas que implementam as estratégias de recomendação (vista em 4) podem ser
classificados em três tipos básicos: A primeira são às Técnicas Baseadas em Conteúdo, a se-
gunda são as baseadas na Filtragem Colaborativa e a terceira são uma abordagem Híbrida. Essas
técnicas são à base dos Sistemas de Recomendação e são apresentadas nas próximas seções.

5.1 Filtragem Baseada em Conteúdo
       É notório que a web é formada por um grande volume de informação, esse aculumo de da-
dos também é a realidade de inúmeros sistemas que armazenam informações dos mais variados
tipos e assuntos. Um problema bastante comum é a ocorrência da sobrecarga de informações.
Abstrair informações de grande importância neste mar de informação, gerando de forma au-
tomática descrições dos conteúdos dos itens e comparar estas descrições com os interesses dos
usuários é conhecida como filtragem baseada em conteúdo. Ela é conhecida por este nome por
realizar uma seleção baseada na análise de conteúdo dos itens e no perfil do usuário.
       A obtenção de informação relevante é o objetivo de alguns softwares que trabalham
baseado na filtragem baseada em conteúdo. Esses softwares não são os primeiros com este
objetivo que, na verdade, tem suas origens na área de recuperação de informação. De acordo
com [6] devido aos significativos avanços feitos pelas comunidades de filtragem de informação e
filtragem de conteúdo, muitos sistemas baseados em filtragem de conteúdo focam na recomen-
dação de itens com informações textuais, como documentos e websites. As melhorias sobre
os sistemas tradicionais de recuperação de informação vieram com a utilização do perfil do
usuário, que contém suas preferências e necessidades.
       Aplicando-se técnicas como indexação de frequência de termos é possível obter infor-
mações de interesses do usuário através da análise das informações cedidas pelo próprio usuário
ou através de mapeamento de suas interações com o sistema, como aquisição de itens (produ-
tos), pesquisa de produtos, dentre outras. Segundo [20] neste tipo de indexação, informações
dos documentos e necessidades dos usuários são descritas por vetores com uma dimensão para
cada palavra que ocorre na base de dados. Cada componente do vetor é a frequência que uma
respectiva palavra ocorre em um documento ou na consulta do usuário. Claramente, os vetores
dos documentos que estão próximos aos vetores da consulta do usuário são considerados os
mais relevantes para ele.
       Ainda de acordo com [20] outros exemplos de tecnologias aplicadas para filtragem
baseada em conteúdo são índices de busca booleana, onde a consulta constitui-se em um con-
junto de palavras- chave unidas por operadores booleanos; sistemas de filtragem probabilística,
onde raciocínio probabilístico é aplicado para determinar a probabilidade que um documento
possui de atender as necessidades de informação de um usuário; e interfaces de consultas com
linguagem natural, onde segundo o autor as consultas são colocadas em sentenças naturais.
       A filtragem baseada em conteúdo foca no principio de que usuários tendem a interessar-se
por itens similares aos objetos que o usuário já comprou ou que demonstrou algum tipo de inter-
esse. Assim vários itens são comparados com itens que o usuário gostou no passado e que foram
avaliado positivamente, e os itens com maior similaridade serão recomendados. Vale lembrar
que estabelecer essa similaridade pode ser mais difícil de ocorrer em alguns casos. Adomavícius
[3] formaliza os Sistemas de Recomendação baseado em conteúdo (ContentBasedPRofile(c))
como sendo o perfil do usuário c. Este perfil é obtido através de uma análise do conteúdo dos
itens previamente avaliados pelo usuário utilizando técnicas de recuperação de informação. Por
exemplo, ContentBasedProfile(c) pode ser definido como um vetor de pesos (wc1 , ..., wck ) onde
cada peso wci denota a importância do termo ki para o usuário c utilizando-se a medida TF-IDF
(term frequency-inverse document frequency).
Revisão Bibliográfica - Sistemas de Recomendação                                               11



       Em Sistemas de Recomendação Baseados em Conteúdo, a função de utilidade u(c, s) é
geralmente definida conforme a equação:
                     u(c, s) = score(ContentBasedPro f ile(c), Content(s))
       Tanto o ContentBasedProfile(c) do usuário c como o Content(s)) podem ser representados
como vetores (TF-IDF) de pesos e termos − c e − s . Além disso, a função utilidade u(c, s)
                                                  → w
                                                  w    →
normalmente é representada, na literatura de recuperação de informação, por algum tipo de
pontuação heurística sobre vetores, como por exemplo, a medida de similaridade do cosseno.
Ainda de acordo com Adomavícius [3] o cálculo para a medida de similaridade do cosseno pode
ser feito de acordo com a equação abaixo, onde k é o número total de palavras no sistema:
                                                    − .−
                                                    →→
                                                    w ws       Σk w w
                      u(c, s) = cos(− c , − s ) = − c − = √ k i=12 i,c i,s 2
                                    → →
                                    w w           → 2× w 2
                                                        →             √
                                                  wc     s   Σi=1 wi,c Σk wi,s
                                                                        i=1
       Desta forma, o cálculo de similaridade é realizado computando o cosseno do ângulo for-
mado pelos dois vetores que representam os documentos (termos e frequências). A descrição
de interesses do usuário é obtida através de informações fornecidas por ele próprio ou através
de ações, como seleção e aquisição de itens.
       Segundo Adomavícius [3], a abordagem baseada em conteúdo tem as seguintes limi-
tações:
   1. Análise de conteúdo é limitada: o conteúdo de dados pouco estruturados é difícil de
      ser analisado. A aplicação da filtragem baseada em conteúdo para extração e análise de
      conteúdo multimídia por exemplo (vídeo, som), é muita mais complexa do que a extração
      e análise de documentos textuais. Outro problema, relativo a análise de conteúdo textual,
      é que sistemas baseados em filtragem em conteúdo não conseguem distinguir um artigo
      bem escrito de um artigo mal escrito se eles utilizam termos muito semelhantes.
   2. Super especialização: quando o Sistema de Recomendação pode recomendar somente
      itens similares a itens avaliados positivamente, pode ocorrer a super especialização. Desta
      forma, os itens que não fechem com o perfil do usuário não serão apresentados.

5.2 Filtragem Colaborativa
      Na filtragem colaborativa (FC), ações de um usuário bem como a análise a respeito das
informações gravadas (por exemplo utilizando-se a reputação do produto 4.1) de um determi-
nado item são utilizadas para o benefício de uma comunidade maior. Sendo assim membros
dessa comunidade podem se beneficiar da experiência de outros usuários antes de decidir sobre
a compra de um determinado produto. A não exigência de reconhecer ou compreender con-
teúdo dos itens torna-se a grande diferença entre Filtragem baseada em conteúdo e a Filtragem
Colaborativa.
      A essência da Filtragem Colaborativa está na forma como é recomendado o item, a re-
comendação ocorre em função das experiências entre as pessoas que possuem interesses co-
muns, os itens então são filtrados baseado nas avaliações feitas pelos usuários. O primeiro
sistema criado com esta abordagem foi o Tapestry [13], que era um sistema com recursos com-
pletos de filtragem de documentos eletrônicos. Neste sistema um usuário poderia criar regras
de filtragem de e-mail como “Mostre-me todos os documentos que são respondidos por outros
membros do meu grupo de pesquisa”. Este sistema exigia que o usuário para determinar as
relações relevantes preditivas ficasse com uma grande carga cognitiva, como resultado, esses
sistemas só foram valiosos em pequenas comunidades fechadas onde todo mundo estava ciente
de interesses e deveres de outros usuários.
      Esta técnica tem o objetivo de sugerir novos itens baseado nos hábitos dos usuários para
predizer suas decisões futuras. De posse de uma base de dados de preferências de itens, um novo
Revisão Bibliográfica - Sistemas de Recomendação                                                                12



usuário é comparado a esta base de forma a descobrir vizinhos, os quais são outros usuários que
possuem características similares. Os itens de interesse para esses vizinhos são então recomen-
dados para o usuário inicial. Essa abordagem parte da premissa de que, se dois usuário X e Y
tiverem interesses similares, então os usuários demonstraram interesses pelos mesmos produ-
tos. De maneira geral, considere-se uma lista de m usuários U = {u1 , u2,...,um } e uma lista de n
itens I = {i1 , i2,...,in }. Cada usuário ui possui uma lista de itens Iui para os quais expressou seu
interesse. Logo, se Iui ⊂ I e que é possível que Iiu seja um conjunto nulo, existe um usuário
distinguível Ua U, denominado usuário ativo, para o qual é tarefa o filtro colaborativo encon-
trar um item de interesse, em particular buscando recomendações. Assim, haverá uma lista de
N itens, Ir ⊂ I, pelos quais o usuário ativo mais se interessará. A lista recomendada deve ser
de itens ainda não comprados pelo usuário ativo. Esta interface dos algoritmos de Filtragem
Colaborativa é também conhecida como recomendação Top-N.
       Destacam-se, entre as técnicas de filtragem colaborativa baseadas em memória, o método
baseado em item, que observa o conjunto de itens que o usuário-alvo avaliou previamente, com-
puta quão similares são eles com relação a um item- alvo i e então seleciona os k itens mais sim-
ilares {i1 , i2 , i3 , . . . ik }. Ao mesmo tempo, as suas similaridades correspondentes {s1 , s2 , s3 , . . . sk }
também são computadas. Encontrados os itens mais similares, a predição é então computada
considerando-se a média ponderada das avaliações do usuário-alvo com relação aos itens simi-
lares [15].
       De acordo com [18] um ponto crítico no algoritmo de FC baseado em itens é computar a
similaridade entre itens e selecionar os mais semelhantes. A ideia básica no cálculo de similar-
idade entre dois itens i e j é, primeiramente, isolar usuários que tenham avaliados esses itens e
então aplicar a técnica de cálculo de similaridade para determinar a similaridade si j entre eles.
A Figura 8 apresenta o processo, onde as linhas da matriz representam usuários e as colunas,
itens.




                   Figura 8: Isolando itens co-avaliados e cálculo de similaridade

       O algoritmo de FC necessita de uma forma de comparar itens de forma a descobrir aqueles
mais próximos entre si. A similaridade por cosseno de vetor considera os vetores de avaliação
entre dois itens com os quais se quer avaliar a similaridade. Seja A a matriz m × n usuário-item;
então, a similaridade entre dois itens i e j é definida pelo cosseno entre os vetores de dimensão
n correspondentes à i-ésima e à j-ésima coluna da matriz A. A similaridade por cosseno entre
itens i = {i1 , i2 , . . . , in} e j = { j1 , j2 , . . . , jn} é dada por:
                                                              →→
                                                              −−
                                            →→
                                             − −               i.j
                               wi, j = cos( i , j ) = → → = √ 2 i1 j1 +i2 22√ 2 n 2n 2
                                                             − −
                                                                                        j +...+i j

                                                              i × j        i1 +i2 +...+in j1 + j2 +...+ jn
                                                                                2
Revisão Bibliográfica - Sistemas de Recomendação                                                13



      onde “.” denota o produto escalar entre ambos os vetores [21].
      Apesar da Filtragem Colaborativa apresentar-se como uma boa opção na maioria das apli-
cações e apresentar a vantagem de sugerir aos usuários produtos inesperados, ainda existem
grandes desafios, por este tipo de sistema apresentar alguns problemas como: Problema do
primeiro avaliador - que é a situação onde um novo item aparece no banco de dados e não
existe assim uma maneira deste ser recomendado para o usuário; Problema de pontuações
esparsas - caso o número de usuários seja pequeno em relação ao volume de informações no
sistema; Similaridade - que é a situação em que um usuário tenha gostos que variam do normal
este terá dificuldades para encontrar outros usuários com gostos similares. Esses problemas
tornam-se mais evidentes em aplicações reais de filtragem colaborativa para sistemas de re-
comendação, pois tais aplicações tratam com grande volume de produto, o que torna a avaliação
dos usuários em cima de uma quantidade substancial de itens uma tarefa difícil.

5.3 Filtragem Híbrida
       A abordagem da filtragem híbrida procura, basicamente, combinar os pontos fortes da
filtragem colaborativa e filtragem baseada em conteúdo visando criar um sistema que possa
melhor atender as necessidades do usuário [14].
       Entre as vantagens da abordagem híbrida é que é possível recomendar bons itens a um
usuário mesmo que não haja usuários semelhantes a ele, pois com essa abordagem é possível
lidar com itens não vistos por outros usuários e caso ocorra o contrário as experiências de outros
usuários são levadas em consideração e o sistema assim sugere alguns itens.
       A figura 9 expressa bem a definição da abordagem híbrida que propõem unir duas das
melhores técnicas de filtragem de informação, eliminando as fraquezas existente em cada uma.




                                  Figura 9: Filtragem Híbrida



6    Conclusão
      A proposta deste trabalho foi apresentar de maneira consistente o que são Sistemas de
Recomendação e como esses sistemas podem ser utilizados para que se possa conhecer melhor
os hábitos de consumo e de interesses dos clientes. Foi objetivo também demonstrar as técnicas
de conhecimento público mais utilizadas para fazer um bom uso deste tipo de conhecimento,
objetivando trazer o cliente mais próximo da empresa, através de boas recomendações e em
consequência disso conseguir a fidelização do mesmo.
Revisão Bibliográfica - Sistemas de Recomendação                                             14



      Trabalhamos em sua maioria com exemplos que se referiam à personalização de websites.
No entanto, Sistemas de Recomendações podem ser aplicados nos mais diversos tipos de inter-
esse. Uma dessas aplicações é a de Call centers. Otimizar serviços de Call centers e diminuir o
custo de pessoal é um dos benefícios que um Sistema de Recomendação poderia trazer.
      Segundo [6] quando de posse do perfil do cliente (empresas de Call centers), o atendente
tem maior facilidade de estabelecer a comunicação com ele e de efetuar, por exemplo, alguma
venda de produto em oferta. Além disso outras vantagens na utilização de serviços de atendi-
mento personalizados são:
   • Redução do tempo de atendimento em 7%
   • Aumento na satisfação do cliente em 8%
   • Redução no abandono de comunicações em 19%


Referências
 [1] Web Site Privacy Seals: Are they worth it? J. Cline, 2003.
 [2] Personalização na Internet. R. Torres, 2004.
 [3] Adomavicius, G.; Tuzhilin, A. Toward the next generation of recommender systems:
     A survey of the state-of-the-art and possible extensions. IEEE TRANSACTIONS ON
     KNOWLEDGE AND DATA ENGINEERING, 17(6):734–749, 2005.
 [4] Breese, J. S.; Heckerman, D.; Kadie, C. Empirical analysis of predictive algorithms for
     collaborative filtering. p. 43–52. Morgan Kaufmann, 1998.
 [5] C. Jensen, J. Davis, S. F. Finding others online: reputation systems for social online
     spaces. Proceedings of the SIGCHI conference on Human factors in computing systems,
     New York,NY, USA.ACM., 2002.
 [6] Cazella, S.; Nunes, M.; Reategui, E. A Ciência da Opinião: Estado da arte em Sis-
     temas de Recomendação. CSBC - XXX Congresso da SBC - Jornada de Atualização de
     Informática-JAI, p. 161–216, 2010.
 [7] D. Poo, B. Chng, J. G. A hybrid approach for user profiling. Proceedings of the
     36th Annual Hawaii International Conference on System Sciences (HICSS’03) - IEEE
     Computer Society, 2003.
 [8] Delgado, J. A. Agent-Based Information Filtering and Recommender System on the
     Internet. PhD thesis, Nagoya Institute of Technology. Dept. of Intelligence Computer
     Science, 2000.
 [9] Donath, J. S. Identity and deception in the virtual community. M. A. Smith and P.
     Kollock, editors, Communities in Cyberspace, 1999.
[10] Donath, J. S. Being real: Questions of tele-identity. Ken Goldberg, editor, The Robot in
     the Garden: Telerobotics and Telepistemology in the Age of the Internet, 2000.
[11] Filho, F. M. F.; Geus, P. L.; Albuquerque, J. a. P. Sistemas de Recomendação e Interação
     na Web Social. I Workshop de Aspectios da Interação Humano-Computador na Web
     Social, p. 24–27, 2008.
Revisão Bibliográfica - Sistemas de Recomendação                                           15



[12] Giddens, A. Modernity and self-identity. self and society in the late modern age.
     Stanford university Press, Stanford, California, 1991.

[13] Goldberg, D.; Nichols, D.; Oki, B. M.; Terry, D. Using collaborative filtering to weave
     an information tapestry. Commun. ACM, 35:61–70, December 1992.

[14] Herlocker, J. L. Understanding and improving automated collaborative filtering sys-
     tems. PhD thesis, University of Minnesota, 2000. AAI9983577.

[15] Karypis, G. Evaluation of item-based top-n recommendation algorithms. p. 247–254,
     2000.

[16] P. Resnick, R. Zeckhauser, J. S. K. L. The value of reputation on ebay: A controlled
     experiment. Experimental Economics, 2006.

[17] P. Resnick, K. Kuwabara, R. Z. E. F. Reputation systems. Commun. ACM, 2000.

[18] Pinto, M. A. G.; Tanscheit, R.; Vellasco, M. Sistema de recomendação de produtos em
     marketing com uso de métodos de apoio à decisão. Computational Intelligence, d:1–7,
     2011.

[19] R. Carreira, J.M. Crato, D. G. J. J. Evaluating adaptive user profiles for news classi-
     fication. Proceedings of the 9th international conference on Intelligent user interfaces,
     New York, NY, USA. ACM Press, 2004.

[20] Reategui, Eliseo Berni;Cazella, S. C. Sistemas de Recomendação. XXV Congresso da
     Sociedade Brasileira de Computação. A Universalidade da Computação: Um Agente de
     Inovação e Conhecimento, p. 306–348, 2005.

[21] Sarwar, B.; Karypis, G.; Konstan, J.; Riedl, J. Analysis of recommendation algorithms
     for e-commerce. In: Proceedings of the 2nd ACM conference on Electronic commerce,
     EC ’00, p. 158–167, New York, NY, USA, 2000. ACM.

[22] Terveen, L.; Hill, W. Beyond recommender systems: Helping people help each other.
     In: HCI in the New Millennium, p. 487–509. Addison-Wesley, 2001.

Más contenido relacionado

La actualidad más candente

Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...
Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...
Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...Leandro Ciuffo
 
Sistemas de Recomendação - Parte 1
Sistemas de Recomendação - Parte 1Sistemas de Recomendação - Parte 1
Sistemas de Recomendação - Parte 1Ralph Rassweiler
 
Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Ralph Rassweiler
 
Introdução à sistemas de recomendação
Introdução à sistemas de recomendaçãoIntrodução à sistemas de recomendação
Introdução à sistemas de recomendaçãoRalph Rassweiler
 
Palestra WAW – Web Analytics na criação de personas
Palestra WAW – Web Analytics na criação de personasPalestra WAW – Web Analytics na criação de personas
Palestra WAW – Web Analytics na criação de personasImpacta Eventos
 
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux  Porto Alegre 2013 - Sistemas de RecomendaçãoTchêlinux  Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux Porto Alegre 2013 - Sistemas de RecomendaçãoMárcio Bortolini dos Santos
 

La actualidad más candente (7)

Sistemas de Recomendação na web
Sistemas de Recomendação na webSistemas de Recomendação na web
Sistemas de Recomendação na web
 
Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...
Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...
Um Estudo de Caso para verificar a suscetibilidade a incentivos de avaliadore...
 
Sistemas de Recomendação - Parte 1
Sistemas de Recomendação - Parte 1Sistemas de Recomendação - Parte 1
Sistemas de Recomendação - Parte 1
 
Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2
 
Introdução à sistemas de recomendação
Introdução à sistemas de recomendaçãoIntrodução à sistemas de recomendação
Introdução à sistemas de recomendação
 
Palestra WAW – Web Analytics na criação de personas
Palestra WAW – Web Analytics na criação de personasPalestra WAW – Web Analytics na criação de personas
Palestra WAW – Web Analytics na criação de personas
 
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux  Porto Alegre 2013 - Sistemas de RecomendaçãoTchêlinux  Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
 

Similar a Sistemas de Recomendação e Personalização

Tuilux white paper
Tuilux white paperTuilux white paper
Tuilux white paperTuilux
 
Apresentação seminário
Apresentação seminárioApresentação seminário
Apresentação seminárioBruna Reginato
 
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Thalita Gama
 
Design Sistemas Centrado Usuario
Design Sistemas Centrado UsuarioDesign Sistemas Centrado Usuario
Design Sistemas Centrado UsuarioElisabeth Dudziak
 
My Report - Usability Tests
My Report - Usability TestsMy Report - Usability Tests
My Report - Usability TestsMichel Alves
 
03 - Inteligencia Artificial e Aprendizado de Maquina.pptx
03 - Inteligencia Artificial e Aprendizado de Maquina.pptx03 - Inteligencia Artificial e Aprendizado de Maquina.pptx
03 - Inteligencia Artificial e Aprendizado de Maquina.pptxIvairLima3
 
Aula Design Web Arquitetura de Informação
Aula Design Web Arquitetura de InformaçãoAula Design Web Arquitetura de Informação
Aula Design Web Arquitetura de Informaçãopedrinabrasil071
 
Oficina sobre Blogs - SECOM 2008
Oficina sobre Blogs - SECOM 2008Oficina sobre Blogs - SECOM 2008
Oficina sobre Blogs - SECOM 2008renatofrigo
 
Uma Experiência Prática da Utilização da Ferramenta Moodle para Comunidades
Uma Experiência Prática da Utilização da Ferramenta Moodle para ComunidadesUma Experiência Prática da Utilização da Ferramenta Moodle para Comunidades
Uma Experiência Prática da Utilização da Ferramenta Moodle para ComunidadesAna Paula Mendonça
 
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...Fee Kosta
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informaçãoVanessa Biff
 
Regina Cianconi - Fontes de informação na Web (nov-2010)
Regina Cianconi - Fontes de informação na Web (nov-2010)Regina Cianconi - Fontes de informação na Web (nov-2010)
Regina Cianconi - Fontes de informação na Web (nov-2010)Arquivista.org
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
 
artigo_02_v-1_n-1_ano-1
artigo_02_v-1_n-1_ano-1artigo_02_v-1_n-1_ano-1
artigo_02_v-1_n-1_ano-1Adriano Renzi
 
Seminario Lep Ibge Slideshare
Seminario Lep Ibge SlideshareSeminario Lep Ibge Slideshare
Seminario Lep Ibge Slideshareguest5ccda
 
Usabilidade: Palestra no auditório do IBGE
Usabilidade: Palestra no auditório do IBGEUsabilidade: Palestra no auditório do IBGE
Usabilidade: Palestra no auditório do IBGELuiz Agner
 
Gestão da Qualidade da Informação em Serviços de Informação
Gestão da Qualidade da Informação em Serviços de InformaçãoGestão da Qualidade da Informação em Serviços de Informação
Gestão da Qualidade da Informação em Serviços de InformaçãoCarla Ferreira
 
Palestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de InformaçãoPalestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de InformaçãoLuiz Agner
 

Similar a Sistemas de Recomendação e Personalização (20)

Tuilux white paper
Tuilux white paperTuilux white paper
Tuilux white paper
 
Apresentação seminário
Apresentação seminárioApresentação seminário
Apresentação seminário
 
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
 
Design Sistemas Centrado Usuario
Design Sistemas Centrado UsuarioDesign Sistemas Centrado Usuario
Design Sistemas Centrado Usuario
 
My Report - Usability Tests
My Report - Usability TestsMy Report - Usability Tests
My Report - Usability Tests
 
03 - Inteligencia Artificial e Aprendizado de Maquina.pptx
03 - Inteligencia Artificial e Aprendizado de Maquina.pptx03 - Inteligencia Artificial e Aprendizado de Maquina.pptx
03 - Inteligencia Artificial e Aprendizado de Maquina.pptx
 
Banco de duplicatas concluido-ok
Banco de duplicatas concluido-okBanco de duplicatas concluido-ok
Banco de duplicatas concluido-ok
 
Aula Design Web Arquitetura de Informação
Aula Design Web Arquitetura de InformaçãoAula Design Web Arquitetura de Informação
Aula Design Web Arquitetura de Informação
 
Social
Social Social
Social
 
Oficina sobre Blogs - SECOM 2008
Oficina sobre Blogs - SECOM 2008Oficina sobre Blogs - SECOM 2008
Oficina sobre Blogs - SECOM 2008
 
Uma Experiência Prática da Utilização da Ferramenta Moodle para Comunidades
Uma Experiência Prática da Utilização da Ferramenta Moodle para ComunidadesUma Experiência Prática da Utilização da Ferramenta Moodle para Comunidades
Uma Experiência Prática da Utilização da Ferramenta Moodle para Comunidades
 
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...
Gestão de Bibliotecas Universitárias com a implementação do Customer Relation...
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Regina Cianconi - Fontes de informação na Web (nov-2010)
Regina Cianconi - Fontes de informação na Web (nov-2010)Regina Cianconi - Fontes de informação na Web (nov-2010)
Regina Cianconi - Fontes de informação na Web (nov-2010)
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
 
artigo_02_v-1_n-1_ano-1
artigo_02_v-1_n-1_ano-1artigo_02_v-1_n-1_ano-1
artigo_02_v-1_n-1_ano-1
 
Seminario Lep Ibge Slideshare
Seminario Lep Ibge SlideshareSeminario Lep Ibge Slideshare
Seminario Lep Ibge Slideshare
 
Usabilidade: Palestra no auditório do IBGE
Usabilidade: Palestra no auditório do IBGEUsabilidade: Palestra no auditório do IBGE
Usabilidade: Palestra no auditório do IBGE
 
Gestão da Qualidade da Informação em Serviços de Informação
Gestão da Qualidade da Informação em Serviços de InformaçãoGestão da Qualidade da Informação em Serviços de Informação
Gestão da Qualidade da Informação em Serviços de Informação
 
Palestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de InformaçãoPalestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de Informação
 

Sistemas de Recomendação e Personalização

  • 1. Revisão Bibliográca - Sistemas de Recomendação E. Q. Silva Technical Report - RT-INF_006-11 - Relatório Técnico October - 2011 - Outubro The contents of this document are the sole responsibility of the authors. O conteúdo do presente documento é de única responsabilidade dos autores. Instituto de Informática Universidade Federal de Goiás www.inf.ufg.br
  • 2. Revisão Bibliográfica - Sistemas de Recomendação Edjalma Queiroz da Silva ∗ Celso G. Camilo Jr † edjalma@ambientinformatica.com.br celso@inf.ufg.br 1 Introdução O acesso a novas tecnologias de informação de maneira cada vez mais fácil, contribui para o crescimento exponencial no volume de dados e o seu tratamento em tempo útil tornou-se inexequível. Para se ter uma ideia deste crescimento, em três anos (período entre 2005 e 2008) o percentual de brasileiros de dez anos ou mais de idade que acessaram ao menos uma vez a Internet pelo computador aumentou 75, 3%, passando de 20, 9% para 34, 8% das pessoas nessa faixa etária, ou 56 milhões de usuários, em 2008. No mesmo período, a proporção dos que tinham telefone celular para uso pessoal passou de 36, 6% para 53, 8% da população de dez anos ou mais de idade, sendo que, para 44, 7% dessas pessoas (ou cerca de 38,6 milhões de brasileiros), o celular era o único telefone para uso pessoal. Os números são do Suplemento da Pesquisa Nacional por Amostra de Domicílios (Pnad) 2008 sobre Acesso à Internet e Posse de Telefone Móvel Celular para Uso Pessoal. Este crescimento impulsiona o surgimento de um fenômeno complexo que abarca o con- junto de novas tecnologias de comunicação mais participativas, mais rápidas e mais populares e as apropriações sociais que foram e que são geradas em torno dessas ferramentas. É um momento de hiperconexão em rede, onde estamos não apenas conectados, mas onde transcreve- mos nossos grupos sociais e, através do suporte, geramos novas formas de circulação, filtragem e difusão dessas informações. O paradigma da web social pode ser observado na manifestação de uma crescente tendên- cia em explorar, de maneira explícita ou implícita, a riqueza dos elos que se firmam com a interação social mediada pelas tecnologias de informação. Essa mudança de paradigma revela- se também no desenvolvimento e no crescimento de popularidade de uma nova classe de apli- cações para web, a exemplo dos sistemas colaborativos para produção de conhecimento (e.g. enciclopédias livres).[11] A rede mundial de computadores vivencia o processo de transformação de um “mar de documentos” em um “mar de conhecimento”, sistemas que entendam como fazer o melhor uso da informação, representa um “conselheiro” para os usuários, passando a conquistar sua con- fiança e possibilitando o aumento de valores de vendas para as empresas, através da qualidade das recomendações apresentadas. Um dos objetivos da maioria das empresas é proporcionar a melhor experiência de compra aos seus clientes. Pode-se elencar desde fatores concretos, como preço e prazo de pagamento, até questões subjetivas, como qualidade do produto, tempo de entrega, tratamento individual- izado para dizer o que está relacionado com à experiência de compra. Com a grande variedade ∗ Mestrando em Ciência da Computação, INF-UFG † Orientador 1
  • 3. Revisão Bibliográfica - Sistemas de Recomendação 2 de produtos e serviços e entre as várias alternativas que lhe são apresentadas, as pessoas se esbarram na dificuldade em tomar uma decisão. Surgem os “sistemas de recomendação” com- putacionais, que têm por objetivo reduzir a sobrecarga de informação, através da seleção de conteúdo baseado em preferências do usuário. Além disso sistemas de compras se apoiam em experiência de compra (bem ou mal sucedida) dos usuários para sugerir (recomendar) produtos à outros usuários que estão de alguma forma relacionados. Esses sistemas têm sido classificados em três categorias no que tange à abordagem uti- lizada para recomendação [3]: 1. Abordagem baseada em conteúdo, nos quais são recomendados itens similares com aque- les que o usuário mostrou preferência no passado; 2. Abordagem colaborativa, na qual são recomendados itens escolhidos por pessoas com preferências similares às do usuário e; 3. Abordagens híbridas, que de alguma forma combinam técnicas na tentativa de solucionar alguns problemas potenciais das abordagens puras anteriores. Dizer aqui o que será tratado neste artigo. 2 Personalização através de Sistemas de Recomendação A adequação de um produto ou serviço para atender as necessidades de um indivíduo po- dem trazer várias vantagens. Por exemplo, através da constante seleção de conteúdos relaciona- dos aos interesses do usuário, um sistema personalizado pode reduzir o tempo em estes levam para encontrar informações relevantes. O tratamento individualizado do usuário em sistema computacional necessita de um conjunto específico de funções. Enquanto o usuário navega no sistema, toda sua interação deve ser monitorada de alguma forma como citado em 3.2. A apre- sentação do documento pode ser modificada de modo a sugerir ao usuário os próximos passos. Em um contexto geral os sistemas de recomendação conseguem solucionar este problema com a criação de uma página personalizada por usuário, ou seja, cada usuário possui sua “própria” home page. Nestas páginas o sistema adicionam, removem, modificam e reorganizam links com o intuito de apresentar, esconder ou enfatizar fragmentos de uma página, assegurando que seu conteúdo inclua informação apropriada para o usuário em questão. Desta forma a probabilidade de que um usuário acesse ou adquira um item é bem maior do que em sistemas não personalizados. Do ponto de vista empresarial e adotando esta abor- dagem sistemática de “recomendar” itens mais interessantes para o usuário, o sistema consegue “fidelizar” um cliente pois representa um “conselheiro” para os usuários, passando a conquistar sua confiança e possibilitando o aumento de valores de vendas para as empresas, através da qualidade das recomendações apresentadas. Os Sistemas de Recomendação são grandes aliados da personalização de sistemas com- putacionais, principalmente na plataforma web. Da literatura, a definição do termo “sistema de recomendação” varia de acordo com o autor. Alguns pesquisadores usam “filtragem colabo- rativa” e “Filtragem social”[4]. Inversamente, outros “sistema de recomendação”, e “filtragem social” tratam “sistema de recomendação”, como um descritor genérico que representa diversas recomendação/previsões técnicas, incluindo colaboração, social e filtragem baseada em con- teúdo, redes Bayesianas e regras de associação [22, 8].
  • 4. Revisão Bibliográfica - Sistemas de Recomendação 3 3 Usuário e o seu perfil Para que seja possível recomendar produtos, serviços ou pessoas a um usuário é necessário ter-se conhecimento sobre quem é este usuário. Antes mesmo de pensar em cap- turar e armazenar suas informações pessoais e comportamentais é necessário identificar qual o tipo de informação será relevante para a geração da recomendação visando uma eficiente personalização dos produtos, serviços e pessoas. Para a correta geração da recomendação a definição do perfil do usuário e coleta de informações é imprescindível.[6] De acordo com (Cazella et al. 2010) [6] para a formação de perfis de usuários é necessário estar atento a 3 aspectos que serão tratados nas próximas seções. 3.1 Identidade do Usuário Note que no mundo virtual onde não há presença física e consequentemente não há per- cepção de características sutis da Identidade, várias pistas que possivelmente identificariam dicas de preferências, comportamentos, habilidades sociais, entre outras, são ausentes, ao con- trário do que ocorre no mundo real [9]. Donath [10] afirma que conhecer a Identidade da pessoa é vital para uma adequada personalização de uma ambiente no mundo virtual. Giddens [12] concorda que sem experiências sociais o “eu” não pode internalizar evolução. Giddens ainda afirma que a identidade de um individuo não é estática, ela pode ser representada em con- stante evolução, principalmente porque o componente social é dinâmico e esta sempre sendo modificado. Considerando a identidade como um canal importante onde as características objetivas e subjetivas das pessoas emergem, denomina-se de fundamental importância seu uso em Sistemas de Recomendação no intuito de fornecer pistas sobre os futuros comportamentos e necessidades dos usuários em um dado ambiente onde a personalização se faz eficaz, por exemplo. 3.1.1 Perfil de Usuário Donath [9] afirma que para a formação eficiente de uma Identidade Virtual é crucial que o usuário tenha definida sua Identidade Interna e sua Identidade Social. No mundo virtual a Identidade Interna do usuário é definida por ele próprio similar ao mundo real (algumas vezes também é descoberta através de técnicas de Machine Learning). Enquanto a Identidade Social é definida pelos outros membros do mundo virtual. Tanto a Identidade Interna, como a Identidade Social são armazenadas no Perfil do Usuário. Perfis de Usuários são conceitos aproximados, eles refletem o interesse do usuário com relação a vários assuntos em um momento particular. Cada termo que um Perfil de Usuário expressa é, num certo grau, características de um usuário particular [7] incluindo todas as in- formações diretamente solicitadas a ele e aprendidas implicitamente durante sua interação na web [19]. Fisicamente, o Perfil do Usuário pode ser visto como uma base de dados onde a informação sobre o usuário, incluindo seus interesses e preferências, é armazenada e pode ser dinamicamente mantido [7]. 3.1.2 Reputação A reputação pode ser definida como o retorno social recebido sobre a personalidade de alguém. A reputação pode ser compatível ou não com a descrição feita no Perfil de Usuário. A reputação ajuda as pessoas escolherem parceiros confiáveis no mundo virtual que são credíveis
  • 5. Revisão Bibliográfica - Sistemas de Recomendação 4 no mundo real. Geralmente nas redes de Reputação, os usuários encorajam os comportamentos confiáveis discriminando a participação de pessoas desabilitadas moralmente ou desonestas.[6] Em processos comerciais, como por exemplo, no eBay [17, 16] um consumidor compra um certo produto de alguém. Depois disso, ele deixa um feedback sobre o produto comprado e, ou o comportamento do vendedor durante o processo de venda. Em contraste, em situações sociais como, por exemplo, Orkut, IKarma, Opinity, LinkedIn, Mendeley [5], usuários são membros de comunidades virtuais ou redes sociais. Eles são capazes de coletar gerenciar e promover Reputação de usuário entre seus clientes e contatos da comu- nidade ou rede. Isto é, usuários (prestadores de serviço) que tem profile na Rede de Reputação, que é também uma rede social podem ser “tagged” e rankeados pelos seus clientes e, ou con- tatos. Usuários podem ser encontrados através de tags em e-mail ou, também, alguém pode encontrar um contato de um prestador de serviço simplesmente procurando em tags na própria rede de reputação. 3.2 Coleta de Informações Hoje é bastante comum no mundo dos negócios a coleta de informações do usuário. Ao abrir uma conta bancária, adquirir um bem imobilizado ou até para fazer uma compra pela internet por exemplo, é exigido que o cliente forneça dados pessoais como nome, endereço, telefone, etc, até números de documentos. E isso se torna importante para se ter conhecimento sobre quem é este usuário. Diante deste fato é necessário identificar o usuário no momento em que ele acessa o sis- tema onde foram implantadas as rotinas de recomendação. De acordo com [20] há duas formas mais habituais de identificação de usuário. A primeira é a Identificação no servidor, que nor- malmente disponibiliza ao usuário uma área de cadastro com informações pessoais, tais como: nome, data de nascimento e outros. Além disso, solicita obrigatoriamente um login1 e senha. Este mecanismo permite que o web site identifique com mais precisão o usuário que nele se conecta. A segunda forma é a Identificação no cliente, que normalmente utiliza cookies2 , um mecanismo pelo qual um web site consegue identificar que determinado computador está se conectando mais uma vez a ele. Este método assume que a máquina conectada é utilizada sem- pre pela mesma pessoa. Trata de um mecanismo mais simples que o primeiro, porém menos confiável, principalmente se o computador identificado for utilizado por mais de uma pessoa. Ainda de acordo com [20] depois de identificar o usuário, é possível coletar dados sobre este de forma implícita ou explícita. Na modalidade de coleta explícita o usuário indica espontanea- mente o que lhe é importante. Por exemplo, o usuário pode indicar suas seções favoritas em uma livraria virtual são Design e Música. Na modalidade implícita, através de ações do usuário infere-se informações sobre suas necessidades e preferências. Por exemplo, armazenando-se dados de navegação do usuário (páginas consultadas, produtos visualizados, etc) é possível detectar que ele se interessa por A 1 De acordo com a Wikipédia : Em termos informáticos, Login (derivado do inglês log in, sendo por vezes também utilizada a alternativa sign in) define o processo através do qual o acesso a um sistema informático é controlado através da identificação e autenticação do utilizador através de credenciais fornecidas por esse mesmo utilizador. Essas credenciais são normalmente constituídas por um Nome de Utilizador ou apenas Utilizador (do inglês username) e uma Palavra-passe ou Senha (do inglês Password) - ocasionalmente, dependendo do sistema, apenas é pedida a Senha. 2 De acordo com a Wikipédia: Cookie (do inglês, literalmente: bolacha), testemunho de conexão, ou simples- mente, testemunho é um grupo de dados trocados entre o navegador e o servidor de páginas, colocado num arquivo (ficheiro) de texto criado no computador do utilizador. A sua função principal é a de manter a persistência de sessões HTTP.
  • 6. Revisão Bibliográfica - Sistemas de Recomendação 5 ou B. Figura 1: Exemplo de recomendação do website da Amazon.com Utilizando-se desta estratégia é possível conhecer melhor a preferência dos usuários sem que eles tenham que fornecer informações explicitamente, e em seguida utilizar estes dados para fazer recomendações. A figura 1 mostra uma página da Amazon.com personalizada para um usuário que se mostra interessado por diversos assuntos listados na parte inferior da página. 3.3 Privacidade em Sistemas de Recomendação Pesquisas mostram que a maior parte dos usuários está disposta a fornecer informações suas para que possam receber ofertas personalizadas. No entanto, o censo americano mostra que 75% dos usuários daquele país se preocupam com a possível divulgação de dados que fornecem às empresas [2]. Os usuários buscam sempre conhecer os objetivos da coleta de dados e se estes dados serão fornecidos a terceiros. A figura 2 mostra uma coleta de dados incentivando a participação do usuário para que as recomendações feitas a ele sejam mais eficientes. Ao analisar a informação anterior notamos que não teria problema algum se as empre- sas que empregam Sistemas de Recomendação tivessem uma coleta de dados associada a uma política de privacidade adequada. Porém, não é incomum encontrar empresas que, além de coletar dados para personalizar o relacionamento com seus clientes, vendam estes dados para outras empresas, uma prática que alimenta o aumento de spam. Estas atitudes prejudicam o relacionamento com o cliente e aumentam a distância entre estes e a empresa. A figura 3 mostra um trecho da página contendo a política de privacidade do serviço de coleta de dados para melhoria das recomendações do website da Amazon.com. Sites como este cumprem uma exigência legal, que visa garantir que uma empresa agirá com honestidade e protegerá as informações dos seus clientes. Algumas instituição com a preocupação de transmitir ao usuário uma melhor reputação (seção 3.1.2) trabalham com selos que garantem que a política de privacidade é adequada e cumprida com rigor. A figura 4 apresenta dois destes selos, fornecidos por grandes instituições na área (TRUSTe, BBBOnline).
  • 7. Revisão Bibliográfica - Sistemas de Recomendação 6 Figura 2: Exemplo de Coleta de Dados para melhoria das recomendações do website da Sub- marino Figura 3: Política de privacidade do website da Amazon.com. Apesar das garantias oferecidas por estas instituições, questiona-se o fato de que muitas vezes os padrões exigidos não são rígidos o suficiente, e as estratégias de controle das normas não são rigorosas [1].
  • 8. Revisão Bibliográfica - Sistemas de Recomendação 7 Figura 4: Selos de Privacidade. 4 Estratégias de Recomendação Dizemos que o principal objetivo dos Sistemas de Recomendação é a fidelização do cliente para uma dada empresa, trazendo para esta benefícios como a lucratividade. Para tal, empresas investem em sistemas que trata cada usuário como sendo único, para que isso ocorra existem diversas técnicas como à lista de Produtos Recomendados, itens Semelhantes e Mala Direta Personalizada, que são descritas abaixo: • Lista de Produtos Recomendados: é uma técnica bem simples que gera uma lista de produtos por algum critério de avaliação, como: mais vistos, mais vendidos, lista de interesse, dentre outros. Dessa forma o sistema mostra para todos os usuários a mesma lista sem nenhuma personalização da mesma. • Itens Semelhantes: é uma técnica que recomenda produtos semelhantes ao que está sendo comprado pelo usuário. O sistema varre o banco de dados em busca de produtos que já foram vistos, avaliados ou comprados por este ou outros usuários que se assemelha de alguma forma ao item corrente. • Mala Direta Personalizada: é uma técnica baseada em contato direto com o usuário através do email. Este contato pode se dar por algum motivo, mas sempre baseado no interesse do usuário, tal como: produto indisponível e que passou estar disponível, pro- moção de algum produto, recomendação de algum item baseado na técnica “Itens Semel- hantes”, dentre outras. Por considerarmos mais importante daremos destaque a quatro estratégias de recomen- dação que serão apresentadas nas próximas subseções. O Sistemas de Recomendação realizam “filtragens” para definir quais produtos serão recomendados a cada perfil de usuário, esse ato é conhecido como Técnicas de Recomendação e será tratado na seção 5. 4.1 Reputação do Produto Um grande exemplo de empresas que se apoiam neste mecanismo são as empresas que exploram o mercado de comércio eletrônico. Elas utilizam Sistemas de Recomendação baseada no uso das avaliações dos usuários sobre um produto para estabelecer qual é grau de satisfação que este produto representa para pessoas que o compraram. A eficiência deste tipo de abor- dagem está relacionada com a ideia de que as pessoas que compraram o produto voltarão ao site para avaliar o produto adquirido e publicar sua opinião, acreditando assim na veracidade das informações fornecidas. Alguns sistemas utilizam da técnica de incentivo dando ao usuário brindes, descontos entre outros, para estimular usuários a contribuir com as suas opiniões.
  • 9. Revisão Bibliográfica - Sistemas de Recomendação 8 Figura 5: Avaliação de um Ar-Condicionado no site do Carrefour www.carrefour.com.br. 4.2 Recomendação por Associação É um outro tipo de recomendação bastante utilizado por web sites de comércio eletrônico. Em uma base de dados que contem as avaliações dos produtos descrita em 4.1, o sistema con- segue encontrar associação entre os produtos e recomendar estes produtos para o usuário os produtos com as melhores avaliações ao que ele demonstrou interesse. Figura 6: Recomendação por Associação no site da Amazon www.amazon.com. Esta apresentação é a implementação do termo, “Clientes que compraram este item tam- bém comprou. . . ”. No exemplo mostrado na figura 6, a partir da seleção de um Livro sobre “Mineração de Dados em Redes Sociais”, o sistema apresentou itens similares de interesse do usuário. 4.3 Associação por Conteúdo A associação por conteúdo faz a recomendação de duas formas, a primeira é a recomen- dação de objetos classificados no perfil do usuário e a segunda é a recomendação de objetos similares aos objetos que o usuário já comprou. Para a primeira forma de recomendação é feito o uso da avaliação do conteúdo de um determinado item, por exemplo, um autor, um compositor ou uma outra propriedade especí- fica. Os itens que possuírem maior “ranking” e que se encaixem no critério de busca serão recomendados para o usuário.
  • 10. Revisão Bibliográfica - Sistemas de Recomendação 9 Independente da forma escolhida, a recomendação neste tipo de técnica trabalha em um escopo mais restrito e sempre vai retornar produtos bastante similar ao que o usuário está visu- alizando. Ela se baseia na ideia de busca de produto por algum critério importante mostrando para o usuário os itens de maior relevância. Figura 7: Recomendação por Associação no site da Submarino www.submarino.com.br. Na exemplo ilustrado na figura 7 a partir da seleção de um câmera fotográfica outras câmeras são apresentados. Note que não são apresentados produtos como filmadoras, celulares e notebooks que também tem a função de câmera fotográfica, porém não sendo este o foco principal destes tipos de produtos não entrando assim no critério de seleção. 4.4 Análise de Sequências de Ações Assim como ocorre na medicina, administração, no direito e em outros domínios a análise de Sequências de Ações é um tipo importante de coleta de informações. De acordo com [6] na web, sequências podem ser utilizadas para capturar o comportamento de usuários através de históricos de atividade temporal, como em weblogs e histórico de compras de clientes. As in- formações encontradas nestas sequências temporais podem ser empregadas nas identificações de padrões de navegação e consumo, que em seguida podem servir aos Sistemas de Recomen- dação. Ainda de acordo com [6] alguns algoritmos buscam agrupar as sequências de ações em clusters como forma de identificar e representar os padrões de comportamentos encontrados nos dados. Por exemplo, representam padrões de sequências em grafos não direcionados e utilizam algoritmos evolucionários com múltiplos objetivos como no processo clusterização. No entanto, um dos algoritmos mais conhecidos na análise de sequência de ações é o SPADE (Sequential PAttern Discovery using Equivalence classes - Descoberta de Padrões Sequenciais utilizando classes equivalentes). O algoritmo busca associar a cada sequencia encontrada uma lista de objetos nos quais ela ocorre. Através deste mecanismo a busca por objetos e sequências é otimizada. O algoritmo também reduz o número de varreduras na busca por padrões, o que implica em um tempo de execução menor. 5 Técnicas de Recomendação Sistemas de Recomendação como dito na seção 4 funcionam como um conselheiro, se comportando de tal maneira a guiar as pessoas em suas descobertas de produtos que podem vir a gostar, agindo assim como um amigo que lhe recomenda um livro ou um restaurante.
  • 11. Revisão Bibliográfica - Sistemas de Recomendação 10 As Técnicas que implementam as estratégias de recomendação (vista em 4) podem ser classificados em três tipos básicos: A primeira são às Técnicas Baseadas em Conteúdo, a se- gunda são as baseadas na Filtragem Colaborativa e a terceira são uma abordagem Híbrida. Essas técnicas são à base dos Sistemas de Recomendação e são apresentadas nas próximas seções. 5.1 Filtragem Baseada em Conteúdo É notório que a web é formada por um grande volume de informação, esse aculumo de da- dos também é a realidade de inúmeros sistemas que armazenam informações dos mais variados tipos e assuntos. Um problema bastante comum é a ocorrência da sobrecarga de informações. Abstrair informações de grande importância neste mar de informação, gerando de forma au- tomática descrições dos conteúdos dos itens e comparar estas descrições com os interesses dos usuários é conhecida como filtragem baseada em conteúdo. Ela é conhecida por este nome por realizar uma seleção baseada na análise de conteúdo dos itens e no perfil do usuário. A obtenção de informação relevante é o objetivo de alguns softwares que trabalham baseado na filtragem baseada em conteúdo. Esses softwares não são os primeiros com este objetivo que, na verdade, tem suas origens na área de recuperação de informação. De acordo com [6] devido aos significativos avanços feitos pelas comunidades de filtragem de informação e filtragem de conteúdo, muitos sistemas baseados em filtragem de conteúdo focam na recomen- dação de itens com informações textuais, como documentos e websites. As melhorias sobre os sistemas tradicionais de recuperação de informação vieram com a utilização do perfil do usuário, que contém suas preferências e necessidades. Aplicando-se técnicas como indexação de frequência de termos é possível obter infor- mações de interesses do usuário através da análise das informações cedidas pelo próprio usuário ou através de mapeamento de suas interações com o sistema, como aquisição de itens (produ- tos), pesquisa de produtos, dentre outras. Segundo [20] neste tipo de indexação, informações dos documentos e necessidades dos usuários são descritas por vetores com uma dimensão para cada palavra que ocorre na base de dados. Cada componente do vetor é a frequência que uma respectiva palavra ocorre em um documento ou na consulta do usuário. Claramente, os vetores dos documentos que estão próximos aos vetores da consulta do usuário são considerados os mais relevantes para ele. Ainda de acordo com [20] outros exemplos de tecnologias aplicadas para filtragem baseada em conteúdo são índices de busca booleana, onde a consulta constitui-se em um con- junto de palavras- chave unidas por operadores booleanos; sistemas de filtragem probabilística, onde raciocínio probabilístico é aplicado para determinar a probabilidade que um documento possui de atender as necessidades de informação de um usuário; e interfaces de consultas com linguagem natural, onde segundo o autor as consultas são colocadas em sentenças naturais. A filtragem baseada em conteúdo foca no principio de que usuários tendem a interessar-se por itens similares aos objetos que o usuário já comprou ou que demonstrou algum tipo de inter- esse. Assim vários itens são comparados com itens que o usuário gostou no passado e que foram avaliado positivamente, e os itens com maior similaridade serão recomendados. Vale lembrar que estabelecer essa similaridade pode ser mais difícil de ocorrer em alguns casos. Adomavícius [3] formaliza os Sistemas de Recomendação baseado em conteúdo (ContentBasedPRofile(c)) como sendo o perfil do usuário c. Este perfil é obtido através de uma análise do conteúdo dos itens previamente avaliados pelo usuário utilizando técnicas de recuperação de informação. Por exemplo, ContentBasedProfile(c) pode ser definido como um vetor de pesos (wc1 , ..., wck ) onde cada peso wci denota a importância do termo ki para o usuário c utilizando-se a medida TF-IDF (term frequency-inverse document frequency).
  • 12. Revisão Bibliográfica - Sistemas de Recomendação 11 Em Sistemas de Recomendação Baseados em Conteúdo, a função de utilidade u(c, s) é geralmente definida conforme a equação: u(c, s) = score(ContentBasedPro f ile(c), Content(s)) Tanto o ContentBasedProfile(c) do usuário c como o Content(s)) podem ser representados como vetores (TF-IDF) de pesos e termos − c e − s . Além disso, a função utilidade u(c, s) → w w → normalmente é representada, na literatura de recuperação de informação, por algum tipo de pontuação heurística sobre vetores, como por exemplo, a medida de similaridade do cosseno. Ainda de acordo com Adomavícius [3] o cálculo para a medida de similaridade do cosseno pode ser feito de acordo com a equação abaixo, onde k é o número total de palavras no sistema: − .− →→ w ws Σk w w u(c, s) = cos(− c , − s ) = − c − = √ k i=12 i,c i,s 2 → → w w → 2× w 2 → √ wc s Σi=1 wi,c Σk wi,s i=1 Desta forma, o cálculo de similaridade é realizado computando o cosseno do ângulo for- mado pelos dois vetores que representam os documentos (termos e frequências). A descrição de interesses do usuário é obtida através de informações fornecidas por ele próprio ou através de ações, como seleção e aquisição de itens. Segundo Adomavícius [3], a abordagem baseada em conteúdo tem as seguintes limi- tações: 1. Análise de conteúdo é limitada: o conteúdo de dados pouco estruturados é difícil de ser analisado. A aplicação da filtragem baseada em conteúdo para extração e análise de conteúdo multimídia por exemplo (vídeo, som), é muita mais complexa do que a extração e análise de documentos textuais. Outro problema, relativo a análise de conteúdo textual, é que sistemas baseados em filtragem em conteúdo não conseguem distinguir um artigo bem escrito de um artigo mal escrito se eles utilizam termos muito semelhantes. 2. Super especialização: quando o Sistema de Recomendação pode recomendar somente itens similares a itens avaliados positivamente, pode ocorrer a super especialização. Desta forma, os itens que não fechem com o perfil do usuário não serão apresentados. 5.2 Filtragem Colaborativa Na filtragem colaborativa (FC), ações de um usuário bem como a análise a respeito das informações gravadas (por exemplo utilizando-se a reputação do produto 4.1) de um determi- nado item são utilizadas para o benefício de uma comunidade maior. Sendo assim membros dessa comunidade podem se beneficiar da experiência de outros usuários antes de decidir sobre a compra de um determinado produto. A não exigência de reconhecer ou compreender con- teúdo dos itens torna-se a grande diferença entre Filtragem baseada em conteúdo e a Filtragem Colaborativa. A essência da Filtragem Colaborativa está na forma como é recomendado o item, a re- comendação ocorre em função das experiências entre as pessoas que possuem interesses co- muns, os itens então são filtrados baseado nas avaliações feitas pelos usuários. O primeiro sistema criado com esta abordagem foi o Tapestry [13], que era um sistema com recursos com- pletos de filtragem de documentos eletrônicos. Neste sistema um usuário poderia criar regras de filtragem de e-mail como “Mostre-me todos os documentos que são respondidos por outros membros do meu grupo de pesquisa”. Este sistema exigia que o usuário para determinar as relações relevantes preditivas ficasse com uma grande carga cognitiva, como resultado, esses sistemas só foram valiosos em pequenas comunidades fechadas onde todo mundo estava ciente de interesses e deveres de outros usuários. Esta técnica tem o objetivo de sugerir novos itens baseado nos hábitos dos usuários para predizer suas decisões futuras. De posse de uma base de dados de preferências de itens, um novo
  • 13. Revisão Bibliográfica - Sistemas de Recomendação 12 usuário é comparado a esta base de forma a descobrir vizinhos, os quais são outros usuários que possuem características similares. Os itens de interesse para esses vizinhos são então recomen- dados para o usuário inicial. Essa abordagem parte da premissa de que, se dois usuário X e Y tiverem interesses similares, então os usuários demonstraram interesses pelos mesmos produ- tos. De maneira geral, considere-se uma lista de m usuários U = {u1 , u2,...,um } e uma lista de n itens I = {i1 , i2,...,in }. Cada usuário ui possui uma lista de itens Iui para os quais expressou seu interesse. Logo, se Iui ⊂ I e que é possível que Iiu seja um conjunto nulo, existe um usuário distinguível Ua U, denominado usuário ativo, para o qual é tarefa o filtro colaborativo encon- trar um item de interesse, em particular buscando recomendações. Assim, haverá uma lista de N itens, Ir ⊂ I, pelos quais o usuário ativo mais se interessará. A lista recomendada deve ser de itens ainda não comprados pelo usuário ativo. Esta interface dos algoritmos de Filtragem Colaborativa é também conhecida como recomendação Top-N. Destacam-se, entre as técnicas de filtragem colaborativa baseadas em memória, o método baseado em item, que observa o conjunto de itens que o usuário-alvo avaliou previamente, com- puta quão similares são eles com relação a um item- alvo i e então seleciona os k itens mais sim- ilares {i1 , i2 , i3 , . . . ik }. Ao mesmo tempo, as suas similaridades correspondentes {s1 , s2 , s3 , . . . sk } também são computadas. Encontrados os itens mais similares, a predição é então computada considerando-se a média ponderada das avaliações do usuário-alvo com relação aos itens simi- lares [15]. De acordo com [18] um ponto crítico no algoritmo de FC baseado em itens é computar a similaridade entre itens e selecionar os mais semelhantes. A ideia básica no cálculo de similar- idade entre dois itens i e j é, primeiramente, isolar usuários que tenham avaliados esses itens e então aplicar a técnica de cálculo de similaridade para determinar a similaridade si j entre eles. A Figura 8 apresenta o processo, onde as linhas da matriz representam usuários e as colunas, itens. Figura 8: Isolando itens co-avaliados e cálculo de similaridade O algoritmo de FC necessita de uma forma de comparar itens de forma a descobrir aqueles mais próximos entre si. A similaridade por cosseno de vetor considera os vetores de avaliação entre dois itens com os quais se quer avaliar a similaridade. Seja A a matriz m × n usuário-item; então, a similaridade entre dois itens i e j é definida pelo cosseno entre os vetores de dimensão n correspondentes à i-ésima e à j-ésima coluna da matriz A. A similaridade por cosseno entre itens i = {i1 , i2 , . . . , in} e j = { j1 , j2 , . . . , jn} é dada por: →→ −− →→ − − i.j wi, j = cos( i , j ) = → → = √ 2 i1 j1 +i2 22√ 2 n 2n 2 − − j +...+i j i × j i1 +i2 +...+in j1 + j2 +...+ jn 2
  • 14. Revisão Bibliográfica - Sistemas de Recomendação 13 onde “.” denota o produto escalar entre ambos os vetores [21]. Apesar da Filtragem Colaborativa apresentar-se como uma boa opção na maioria das apli- cações e apresentar a vantagem de sugerir aos usuários produtos inesperados, ainda existem grandes desafios, por este tipo de sistema apresentar alguns problemas como: Problema do primeiro avaliador - que é a situação onde um novo item aparece no banco de dados e não existe assim uma maneira deste ser recomendado para o usuário; Problema de pontuações esparsas - caso o número de usuários seja pequeno em relação ao volume de informações no sistema; Similaridade - que é a situação em que um usuário tenha gostos que variam do normal este terá dificuldades para encontrar outros usuários com gostos similares. Esses problemas tornam-se mais evidentes em aplicações reais de filtragem colaborativa para sistemas de re- comendação, pois tais aplicações tratam com grande volume de produto, o que torna a avaliação dos usuários em cima de uma quantidade substancial de itens uma tarefa difícil. 5.3 Filtragem Híbrida A abordagem da filtragem híbrida procura, basicamente, combinar os pontos fortes da filtragem colaborativa e filtragem baseada em conteúdo visando criar um sistema que possa melhor atender as necessidades do usuário [14]. Entre as vantagens da abordagem híbrida é que é possível recomendar bons itens a um usuário mesmo que não haja usuários semelhantes a ele, pois com essa abordagem é possível lidar com itens não vistos por outros usuários e caso ocorra o contrário as experiências de outros usuários são levadas em consideração e o sistema assim sugere alguns itens. A figura 9 expressa bem a definição da abordagem híbrida que propõem unir duas das melhores técnicas de filtragem de informação, eliminando as fraquezas existente em cada uma. Figura 9: Filtragem Híbrida 6 Conclusão A proposta deste trabalho foi apresentar de maneira consistente o que são Sistemas de Recomendação e como esses sistemas podem ser utilizados para que se possa conhecer melhor os hábitos de consumo e de interesses dos clientes. Foi objetivo também demonstrar as técnicas de conhecimento público mais utilizadas para fazer um bom uso deste tipo de conhecimento, objetivando trazer o cliente mais próximo da empresa, através de boas recomendações e em consequência disso conseguir a fidelização do mesmo.
  • 15. Revisão Bibliográfica - Sistemas de Recomendação 14 Trabalhamos em sua maioria com exemplos que se referiam à personalização de websites. No entanto, Sistemas de Recomendações podem ser aplicados nos mais diversos tipos de inter- esse. Uma dessas aplicações é a de Call centers. Otimizar serviços de Call centers e diminuir o custo de pessoal é um dos benefícios que um Sistema de Recomendação poderia trazer. Segundo [6] quando de posse do perfil do cliente (empresas de Call centers), o atendente tem maior facilidade de estabelecer a comunicação com ele e de efetuar, por exemplo, alguma venda de produto em oferta. Além disso outras vantagens na utilização de serviços de atendi- mento personalizados são: • Redução do tempo de atendimento em 7% • Aumento na satisfação do cliente em 8% • Redução no abandono de comunicações em 19% Referências [1] Web Site Privacy Seals: Are they worth it? J. Cline, 2003. [2] Personalização na Internet. R. Torres, 2004. [3] Adomavicius, G.; Tuzhilin, A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 17(6):734–749, 2005. [4] Breese, J. S.; Heckerman, D.; Kadie, C. Empirical analysis of predictive algorithms for collaborative filtering. p. 43–52. Morgan Kaufmann, 1998. [5] C. Jensen, J. Davis, S. F. Finding others online: reputation systems for social online spaces. Proceedings of the SIGCHI conference on Human factors in computing systems, New York,NY, USA.ACM., 2002. [6] Cazella, S.; Nunes, M.; Reategui, E. A Ciência da Opinião: Estado da arte em Sis- temas de Recomendação. CSBC - XXX Congresso da SBC - Jornada de Atualização de Informática-JAI, p. 161–216, 2010. [7] D. Poo, B. Chng, J. G. A hybrid approach for user profiling. Proceedings of the 36th Annual Hawaii International Conference on System Sciences (HICSS’03) - IEEE Computer Society, 2003. [8] Delgado, J. A. Agent-Based Information Filtering and Recommender System on the Internet. PhD thesis, Nagoya Institute of Technology. Dept. of Intelligence Computer Science, 2000. [9] Donath, J. S. Identity and deception in the virtual community. M. A. Smith and P. Kollock, editors, Communities in Cyberspace, 1999. [10] Donath, J. S. Being real: Questions of tele-identity. Ken Goldberg, editor, The Robot in the Garden: Telerobotics and Telepistemology in the Age of the Internet, 2000. [11] Filho, F. M. F.; Geus, P. L.; Albuquerque, J. a. P. Sistemas de Recomendação e Interação na Web Social. I Workshop de Aspectios da Interação Humano-Computador na Web Social, p. 24–27, 2008.
  • 16. Revisão Bibliográfica - Sistemas de Recomendação 15 [12] Giddens, A. Modernity and self-identity. self and society in the late modern age. Stanford university Press, Stanford, California, 1991. [13] Goldberg, D.; Nichols, D.; Oki, B. M.; Terry, D. Using collaborative filtering to weave an information tapestry. Commun. ACM, 35:61–70, December 1992. [14] Herlocker, J. L. Understanding and improving automated collaborative filtering sys- tems. PhD thesis, University of Minnesota, 2000. AAI9983577. [15] Karypis, G. Evaluation of item-based top-n recommendation algorithms. p. 247–254, 2000. [16] P. Resnick, R. Zeckhauser, J. S. K. L. The value of reputation on ebay: A controlled experiment. Experimental Economics, 2006. [17] P. Resnick, K. Kuwabara, R. Z. E. F. Reputation systems. Commun. ACM, 2000. [18] Pinto, M. A. G.; Tanscheit, R.; Vellasco, M. Sistema de recomendação de produtos em marketing com uso de métodos de apoio à decisão. Computational Intelligence, d:1–7, 2011. [19] R. Carreira, J.M. Crato, D. G. J. J. Evaluating adaptive user profiles for news classi- fication. Proceedings of the 9th international conference on Intelligent user interfaces, New York, NY, USA. ACM Press, 2004. [20] Reategui, Eliseo Berni;Cazella, S. C. Sistemas de Recomendação. XXV Congresso da Sociedade Brasileira de Computação. A Universalidade da Computação: Um Agente de Inovação e Conhecimento, p. 306–348, 2005. [21] Sarwar, B.; Karypis, G.; Konstan, J.; Riedl, J. Analysis of recommendation algorithms for e-commerce. In: Proceedings of the 2nd ACM conference on Electronic commerce, EC ’00, p. 158–167, New York, NY, USA, 2000. ACM. [22] Terveen, L.; Hill, W. Beyond recommender systems: Helping people help each other. In: HCI in the New Millennium, p. 487–509. Addison-Wesley, 2001.