O documento discute recomendação de conteúdo usando diferentes algoritmos como content based, user based e cold start. Ele também descreve métodos de processamento paralelo, validação e métricas para avaliar os resultados dos algoritmos de recomendação.
5. Coleta de atividades antes
página visitada Papalog
página visitada Papalog
página visitada Papalog
6. Coleta de atividades atual
página visitada
tempo assistindo video
compartilhamento
comentário
tempo lendo matéria
Horizon
Gateway
porcentagem de scroll
Referências em recomendação. Netflix e Amazon as mais reconhecidas pelo sucesso comercial.
Explicar aqui o histórico, como começou lá em 2010 em webmedia, e diversas iniciativas de recomendação não personalizada e social.
Apache recebe pageview e grava o log em um filer. Esse log é lido pelo papalog e as informações são consolidadas no redis.
Explicar como coletamos atividades dos usuário através do horizon e as guardamos em nosso cluster hadoop. Informações que já trackeamos: pageviews, videoviews (todos plays, pauses e seeks), informações de scroll, tempo de leitura. Mencionar Parquet que é um formato de dados baseado no paper de bigquery do google.
Exemplo de query no parquet com groupBy aggregação e filtro. Busca o maior scroll de cada usuario/objeto que seja mais de 50%
Jobs spark fazem queries no parquet e gravam resultados no hbase e redis
Explicar como funciona a extração do TF-IDF por documento
Mostrar a importância de semantica e boa anotação de conteúdo para gerar um perfil relevante sobre usuário.
Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
Explicar como o objetivo da recomendação é prever o comportamento do usuário, iniciar por previsões simples como descobrir custo de uma casa de acordo com área. Depois em tres dimensões, custo dela de acordo com a área e a idade. Depois em n-dimensões… Mostrar como isso se aplica aos gostos do usuário. Falar da técnica de gradient descent para encontrar o erro minimo e a equação correta.
ALS - Alternating leasts squares resolve as matrizes de usuarios e itens usando uma para gerar a outra alternadamente até alcançar o menor erro.
O RMSE serve para verificar o quão erradas estão as preferências previstas pelo nosso algoritmo. Como nosso intuito na recomendação não é acertar esse valor, talvez essa métrica sirva mais para identificar underfittings e overfittings.
Com o fscore podemos comparar qual melhor algoritmo de acordo com a precisão e a sensibilidade. Essa equação resolve dois problemas, se eu retornasse todos documentos, ou se um usuario viu muitos documentos.
Explicar como a recomendação de cada produto é acompanhada diariamente e melhorada em novos experimentos