Sistemas de recomendação
-
Upload
marcio-bortolini-dos-santos -
Category
Technology
-
view
1.009 -
download
1
description
Transcript of Sistemas de recomendação
![Page 1: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/1.jpg)
Sistemas de recomendação
Márcio Bortolini dos Santos
![Page 2: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/2.jpg)
antes...
![Page 3: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/3.jpg)
agora...
![Page 4: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/4.jpg)
Há uma sobrecarga de informação
![Page 5: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/5.jpg)
Muitas vezes inúteis
![Page 6: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/6.jpg)
Gastamos muito tempo escolhendo
![Page 7: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/7.jpg)
“A lot of times, people don’t know whatthey want until you show it to them.”
Steve Jobs
![Page 8: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/8.jpg)
“We are leaving the Information age, andentering into the Recommendation age.”
Chris Anderson, from book Long Tail
![Page 9: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/9.jpg)
O que é recomendar
![Page 10: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/10.jpg)
Que carro comprar?
Família
Amigos
Recomendações sociais
Compre este..
![Page 11: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/11.jpg)
Que carro comprar?
Recomendações por interações
Compre este..
Avalie itens Sistema
![Page 12: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/12.jpg)
Sistemas de recomendação
Os sistemas de recomendação surgiram
para auxiliar no processo social de
indicar e receber indicações
São projetados para nos sugerir coisas de nosso interesse.
![Page 13: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/13.jpg)
Motivação
Netflix– 2/3 dos aluguéis de filmes vêm de recomendações
Google News– 38% das notícias mais clicadas vêm de
recomendação
Amazon– 35% das vendas vêm de recomendação
![Page 14: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/14.jpg)
Estratégias de Recomendação
Existem algumas estratégias empregadas para efetuar as recomendações.
Reategui e Cazella (2005) definem cinco estratégias mais utilizadas para recomendação.
![Page 15: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/15.jpg)
listas de recomendação
![Page 16: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/16.jpg)
listas de recomendação
![Page 17: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/17.jpg)
Vantagens/Desvantagens
Principal vantagem é a facilidade de implementação., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminação de informações, etc.
A desvantagem é que as recomendações não são dirigidas a cada usuário independentemente, mas sim a todos os usuários sem distinção, ou seja ao público em geral, não sendo personalizadas para um usuário específico.
![Page 18: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/18.jpg)
Avaliações de usuários
![Page 19: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/19.jpg)
Avaliações de usuários
![Page 20: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/20.jpg)
Suas recomendações
![Page 21: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/21.jpg)
Suas recomendações
![Page 22: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/22.jpg)
Obtenção dos dados dos usuários
Implícita
Explícita
![Page 23: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/23.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 24: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/24.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 25: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/25.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 26: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/26.jpg)
Obtenção dos dados dos usuários
É a forma mais complexa de recomendação, pois ela exige uma análise bastante profunda dos hábitos dos usuários, de modo que possa identificar padrões e recomendar itens com base nestes padrões (Reategui e Cazella, 2005).
![Page 27: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/27.jpg)
Associação por conteúdo
![Page 28: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/28.jpg)
Associação por conteúdo
![Page 29: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/29.jpg)
Associação por conteúdo
![Page 30: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/30.jpg)
Associação por conteúdo
![Page 31: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/31.jpg)
Obtenção dos dados dos itens
Reategui e Cazella (2005), definem que, nesta estratégia, a recomendação é feita com base no conteúdo de um item em específico, por exemplo um autor, um compositor, umeditor, etc. Para tal, se faz necessário encontrar associações entre os itens, porém estas estão num escopo mais restrito.
![Page 32: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/32.jpg)
Estratégias de Recomendação
Existem algumas estratégias empregadas para efetuar as recomendações.
Reategui e Cazella (2005) definem cinco estratégias mais utilizadas para recomendação.
![Page 33: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/33.jpg)
listas de recomendação
![Page 34: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/34.jpg)
listas de recomendação
![Page 35: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/35.jpg)
Vantagens/Desvantagens
Principal vantagem é a facilidade de implementação., basta manter-se listas de acordo com as necessidades de marketing, de aumento de lucratividade, de disseminação de informações, etc.
A desvantagem é que as recomendações não são dirigidas a cada usuário independentemente, mas sim a todos os usuários sem distinção, ou seja ao público em geral, não sendo personalizadas para um usuário específico.
![Page 36: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/36.jpg)
Avaliações de usuários
![Page 37: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/37.jpg)
Avaliações de usuários
![Page 38: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/38.jpg)
Suas recomendações
![Page 39: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/39.jpg)
Suas recomendações
![Page 40: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/40.jpg)
Obtenção dos dados dos usuários
Implícita
Explícita
![Page 41: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/41.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 42: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/42.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 43: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/43.jpg)
Usuários que se interessaram por X também se interessaram por Y
![Page 44: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/44.jpg)
Obtenção dos dados dos usuários
É a forma mais complexa de recomendação, pois ela exige uma análise bastante profunda dos hábitos dos usuários, de modo que possa identificar padrões e recomendar itens com base nestes padrões (Reategui e Cazella, 2005).
![Page 45: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/45.jpg)
Associação por conteúdo
![Page 46: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/46.jpg)
Associação por conteúdo
![Page 47: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/47.jpg)
Associação por conteúdo
![Page 48: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/48.jpg)
Associação por conteúdo
![Page 49: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/49.jpg)
Obtenção dos dados dos itens
Reategui e Cazella (2005), definem que, nesta estratégia, a recomendação é feita com base no conteúdo de um item em específico, por exemplo um autor, um compositor, umeditor, etc. Para tal, se faz necessário encontrar associações entre os itens, porém estas estão num escopo mais restrito.
![Page 50: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/50.jpg)
Técnicas de Recomendação
Colaborativos
Baseados em conteúdo
Híbridos
Segundo Reategui e Cazella (2005), são estas técnicas fundamentam o funcionamento dos sistemas de recomendação.
![Page 51: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/51.jpg)
Colaborativos
A essência está na troca de experiências entre as pessoas que possuem interesses comuns.
Filtra as avaliações dos usuários.
Recomenda itens para usuários com perfis semelhantes.
![Page 52: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/52.jpg)
Colaborativos
Usuário Tablet Desktop Smartphone Notebook Ultrabook Celular
Antônio x x
Jéssica x x
Marcos x x
Juliana x x x
Paulo x x
Rosana x x
![Page 53: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/53.jpg)
Colaborativos
Passos
Armazenamento das informações dos usuários.
Cálculo de semelhança entre os usuários.
Agrupamento de usuários com preferências semelhantes.
Predição da pontuação de um item para o usuário baseado nas avaliações dos usuários mais semelhantes a ele
![Page 54: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/54.jpg)
Colaborativos
Forma de avaliação dos usuários
KNN (K vizinhos mais próximos)similaridade de um usuário-alvo com outros usuários
![Page 55: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/55.jpg)
Colaborativos Similaridade
Distância euclidiana
![Page 56: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/56.jpg)
Colaborativos Similaridade
Função do Cosseno
![Page 57: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/57.jpg)
Colaborativos Similaridade
Função do Cosseno
![Page 58: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/58.jpg)
Colaborativos Similaridade
Predizer da pontuação de um item
• Mais formalmente, a pontuação R(u,i) do item i para o usuário u é estimada baseada na pontuação R(u’,i) atribuída ao mesmo item i pelos usuários u’ que são similares ao usuário em questão.
• O valor de uma pontuação desconhecida ru,i para o usuário u e item i é normalmente computado como uma agregação de pontuações de outros usuários (por exemplo, os N mais similares) para o mesmo item i.
![Page 59: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/59.jpg)
Colaborativos Similaridade
Exemplo:
• Supondo a existência de um sistema de recomendação de leituras onde os usuários tem acesso aos livros e podem avaliá-los quanto a satisfação.
• Para este feedback uma escala Likert de 5 pontos é disponibilizada (5 significa adorei e 1 significa detestei o item).
• Uma matriz de relação usuários x itens pode ser disponibilizada.
![Page 60: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/60.jpg)
Colaborativos Similaridade
Esta matriz nos apresenta a relação usuário x item, onde 5 usuários pontuaram5 itens (A, B, C, D e E). A esparcialidade desta matriz seria de 8%, ou seja,apenas 8% das avaliações possíveis não foram feitas. Estes itens não avaliadossão potenciais recomendações.
![Page 61: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/61.jpg)
Colaborativos Similaridade
Primeiro Passo
Calcula-se o peso em relação a similaridade do usuário-alvo:.
Para tanto utiliza-se uma técnica denominada de “k-nearest-neighbor” ou “user-based”.
A definição da similaridade pode ser realizada através de diversos coeficientes, sendo mais comumente aplicado o coeficiente de correlação de Pearson.
Observa-se a necessidade de mais de uma avaliação em comum para que a correlação seja viável, e os resultados variam entre 1 para similaridade total, e -1 para total dissimilaridade.
![Page 62: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/62.jpg)
Colaborativos Similaridade
Coeficiente de Pearsonassumindo na correlação U1 = a e U2 = u, teríamos:
Média das avaliações de a em comum com u
Média das avaliações de u em comum com a
Avaliação que a deu para o item i
Avaliação que u deu para o item i
Alta similaridade
= Média similaridade
Nada pode ser dito
Nada pode ser dito
?
![Page 63: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/63.jpg)
Colaborativos
Segundo Passo
Seleciona-se um subconjunto de usuários com maiores similaridades :Baseado no resultado do coeficiente de Pearson é definido este subconjunto (com foco no usuário alvo da recomendação – U1).
![Page 64: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/64.jpg)
Colaborativos
Segundo Passo
Calculam-se as predições (Recomendações): tendo um item a ser recomendado para um usuário alvo (item que este usuário não teve acesso). No exemplo o objetivo é predizer quanto o usuário U1 daria de avaliação para o item B se tivesse acesso a ele.
?
![Page 65: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/65.jpg)
ColaborativosCálculo da predição: assumindo U1 = a como usuário alvo e B o item a ser predito
Nota da predição de um item i para um usuário a(considera a partir de 3 pontos)
Média das avaliações do usuário-alvo a considerandoos artigos em comum com todos os seus similares.
Média das avaliações do usuário similar uconsiderando artigos em comum com o usuário-alvo a.
Coeficiente de similaridade entre a e u.
Avaliação dada por u ao item i.
?
Recomendaria este item?
![Page 66: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/66.jpg)
Colaborativos Vantagens
Independência de conteúdo
Geração de recomendações baseadas em preferências dos usuários
Possibilidade de produzir recomendações inesperadas e de alta qualidade.
![Page 67: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/67.jpg)
Colaborativos Desvantagens
Problema do primeiro avaliador
Problema de pontuações esparsas
Similaridade
Novo item/usuário
Custo de processamento (Escalabilidade)
![Page 68: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/68.jpg)
Baseados em conteúdo
Analisam as descrições de itens e de usuários.
Podem recomendar itens parecidos com outros itens que o usuário teve interesse no passado.
Útil para produtos que contenham alguma informação textual.
![Page 69: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/69.jpg)
Modelos para recuperação da informação
Modelo booleano
Modelo booleano estendido
Modelo de Espaço Vetorial (VSM) ou Modelo Vetorial
Modelo Probabilístico
Modelo baseado em agrupamento
![Page 70: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/70.jpg)
Modelo booleano
Se baseia na teoria de conjuntos e na álgebra booleana
Documentos (D) são representados como conjuntos de termos de indexação
As consultas (Q) são formuladas através de expressões booleanas formadas por termos e conectivos de boole (and, or e not)
![Page 71: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/71.jpg)
Modelo booleano
Expressão booleana(“modelos” and“booleanos”) or “conjuntos”
![Page 72: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/72.jpg)
Modelo booleano
Um documento só pode ser dito como relevante ou não-relevante
Há a necessidade de especificação de consultas complexas
É incapaz de se representar pesos associados aos termos desejados
![Page 73: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/73.jpg)
Modelo booleano estendido
Considera o peso dos termos nos documentos e permite que o usuário especifique as relevâncias dos termos para uma determinada consulta
Esse modelo se baseia na interpretação dos operadores de consulta conjuntivas e disjuntivas em termos de distâncias euclidianas em um espaço t-dimensional
![Page 74: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/74.jpg)
Modelo booleano estendido
Considerando dois termos:
Para expressões conjuntivas o ponto (1,1) é o mais desejável.
Quanto menor a distância do documento em relação a este ponto, maior é a similaridade em relação à busca.
Nas expressões disjuntivas o ponto (0,0) representa que nenhum dos termos da expressão de busca está presenteno documento.
![Page 75: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/75.jpg)
Modelo booleano estendido
Considerando dois termos t1 e t2
O espaço de busca será bidimensional
O documento é representado por um vetor de pesos
Os pesos definem a posição no espaço euclidiano
![Page 76: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/76.jpg)
Modelo booleano estendido
A similaridade entre um documento di = (w1i, w2i) e uma consulta q = t1 or t2 é dada por:
![Page 77: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/77.jpg)
Modelo de Espaço Vetorial (VSM)
É definido como sendo um modelo baseado em conteúdo, com pesos associados aos termos de indexação e, cujo resultado da função de similaridade é dado na forma de ranking.
![Page 78: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/78.jpg)
Modelo de Espaço Vetorial (VSM)
Cada termo possuí um peso atrelado a si, para permitir distinção entre os termos de acordo com sua importância.
Os pesos podem variar entre 0 e 1.
![Page 79: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/79.jpg)
Modelo de Espaço Vetorial (VSM)
O VSM utiliza um espaço n-dimensional para representar os termos. Neste espaço, n (ou número de dimensões) representa o número de termos distintos.
Para cada vetor de documentos, ou de consulta, os pesos representam as coordenadas do vetor na dimensão correspondente.
![Page 80: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/80.jpg)
Modelo de Espaço Vetorial (VSM)
![Page 81: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/81.jpg)
Modelo de Espaço Vetorial (VSM)
trata como sendo vetores de valores reais contendo os pesos de cada termo (wij) dos documentos.
A matriz é escrita na forma di = (wi1, wi2, …, win),ondewij corresponde ao peso do j-ésimo (j = 1, 2, ..., n) termo do i-ésimo documento (i = 1, 2, ..., n).
Sendo assim, a coleção de objetos é representada como sendo uma matriz (D) de termos de tamanho n x m onde n é o número de documentos e m o número de termos.
![Page 82: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/82.jpg)
Modelo de Espaço Vetorial (VSM)
O princípio do VSM é baseado na correlação inversa entre a distância ou ângulo entre vetores de termos no espaço e a similaridade entre os documentos que eles representam.
![Page 83: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/83.jpg)
Cálculo de similaridade
![Page 84: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/84.jpg)
Cálculo de Similaridade
tf*idf
tf: frequência do termo no documento
idf: frequência inversa do documento
![Page 85: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/85.jpg)
Modelo Probabilístico
Baseado na teoria das probabilidades como meio paramodelar o processo de recuperação de informação.
A similaridade é calculada pela probabilidade de tal documento (D) ser relevante a tal consulta (Q), caso os termos (t) da consulta apareçam no documento
![Page 86: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/86.jpg)
Modelo Probabilístico
Presume-se que a distribuição dos termos, nos documentos da coleção, é uma informação que é capaz de determinar a relevância ou não de um documento em responder a uma dada consulta.
Quando vetores de documentos e consultas (termos envolvidos em ambas) são suficientemente similares, a probabilidade de relevância correspondente é alta o suficiente, para ser considerada a recuperação do documento em resposta à consulta
![Page 87: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/87.jpg)
Modelo Probabilístico
Cada documento é representado por um vetor de termos, porém este difere do modelo de espaço vetorial apresentado na seção anterior pois não há um peso atrelado a cada termo mas sim um valor binário.
![Page 88: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/88.jpg)
Modelo Probabilístico
probabilidade de um documento que possui o termo de indexação ser relevante
probabilidade de um documento que não possui o termo de indexação não ser relevante
probabilidade de um documento que possui o termo de indexação não ser relevante
probabilidade de um documento que não possui o termo de indexação ser relevante
![Page 89: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/89.jpg)
Modelo Probabilístico
Um documento dj é relevante a uma consulta q quando:
Assim, dada uma consulta q, o modelo probabilístico atribui acada documento d (como medida de similaridade) um peso Wd/q
![Page 90: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/90.jpg)
Modelo Probabilístico
Aplicando a regra de Bayes:
probabilidade de se selecionar aleatoriamente um documento dj do conjunto de documentos relevantes
probabilidade de se selecionar um documento dj do conjunto de documentosnão-relevantes
probabilidade que um documento selecionado aleatoriamente de uma coleçãointeira não seja relevante
probabilidade que um documento selecionado aleatoriamente de uma coleção inteira seja relevante
![Page 91: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/91.jpg)
Modelo Probabilístico
Considerando que P(Rel) e P(Rel) é inicialmente a mesmapara todo documento da coleção tem-se:
![Page 92: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/92.jpg)
Modelo Probabilístico
Sabendo-se que
após transformações algébricas pode-se escrever
expressão utilizada para classificação computacional pelo modelo probabilístico
![Page 93: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/93.jpg)
Modelo Probabilístico
1 – P(ti|Rel) é constante para todo termo de indexação ki e igual a 0,5 (50% de possibilidade de ser ou não relevante);
P(ti|Rel) = 0,5
2 – a distribuição dos termos de indexação entre os documentos não-relevantes pode ser aproximada da distribuição dos termos de indexação entre os todos documentos da coleção;
P(ti|Rel) = ni / N
ni é o número de documentos que contém o termo de indexaçãoN é o número total de documentos da coleção
![Page 94: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/94.jpg)
Modelo Probabilístico vantagens
Necessidade da suposição da separação inicial dos documentos nos conjuntos relevantes ou não-relevantes
Não leva em conta a frequência com que um termo de indexação ocorre no documento (somente considera pesos binários)
Adoção da suposição da independência dos termos
![Page 95: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/95.jpg)
Modelo Probabilístico vantagens
O ranking dos documentos é realizado em ordem decrescente da probabilidade de relevância.
![Page 96: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/96.jpg)
Modelo baseado em agrupamento
Para a extração e armazenamento dos dados são utilizados conceitos de recuperação de informação e rede neural.
Para a busca é explorada a organização dos metadados de itens no banco de dados para promover mecanismos eficazes para a sua localização e reuso.
![Page 97: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/97.jpg)
Modelo baseado em agrupamento
Nessa abordagem itens são representados por termos, que são extraídos automaticamente, normalizados e armazenados em repositórios.
Essas informações são utilizadas no agrupamento dos itens.
Após a normalização dos termos são obtidas as frequências de ocorrência no item e calculados os pesos
![Page 98: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/98.jpg)
Modelo baseado em agrupamento
fi é a frequência do termo i
n é a quantidade total de itens
ni é a quantidade de itens que possuem o termo i.
![Page 99: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/99.jpg)
Modelo baseado em agrupamento
O agrupamento é realizado através da identificação deconjuntos de itens similares.
Para a recuperação de informação são utilizadas duas formas alternativas, uma que utiliza o modelo espaço vetorial e outra usando o modelo booleano, que, aplicados aos agrupamentos, trazem ao usuário o conjunto resposta.
![Page 100: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/100.jpg)
Baseados em conteúdo Vantagens
Não possui o problema do primeiro avaliador
Possui capacidade de recomendar todos os itens
Aplica esquema de atribuição de pesos aos termos
Utiliza estratégia de casamento parcial
Documentos são ordenados de acordo com o grau de similaridade
![Page 101: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/101.jpg)
Baseados em conteúdo Desvantagens
Não considera aspectos como qualidade do texto e renome do autor
Super especialização
Conteúdo dos dados pouco estruturados
Não considerar a correlação entre os termos de indexação
![Page 102: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/102.jpg)
Híbrido
Faz uso de umas ou mais técnicas de recomendação
Pode ser feita:● implementando ambos métodos separadamente e combinando os
resultados● incorporando algumas características da abordagem baseada em
conteúdos na a abordagem colaborativa● construindo um modelo unificado que incorpora as características de
ambos
![Page 103: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/103.jpg)
Híbrido
![Page 104: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/104.jpg)
Mineração de textos
Por que extrair informação?
![Page 105: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/105.jpg)
Processo de Extração
• Formação da base de conhecimento
• Preparação dos dados
• Processamento de linguagem natural
• Organização e estruturação para busca
• Recuperação dainformação
• Cálculos, inferências e extração de conhecimento
• Mineração de dados
![Page 106: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/106.jpg)
Pré-processamento
Tokenização
Normalização
StopWords
Stemming
![Page 107: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/107.jpg)
Tokenização
Interpreta o texto transformado em termos
Exemplo:
“Vídeo com a definição de Função Afim.”
w = [“Vídeo”, “com”, “a”, “definição”, “de”, “Função”, “Afim”, “.”]
![Page 108: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/108.jpg)
Normalização
1 - Case Folding : processo de conversão de todos os caracteres de um mesmo documento para um formato comum.
Silla e Kaestner (2002)
Exemplo:
“Objeto”, “oBjEtO”, “OBjEtO”, “oBEJTO” = “OBJETO” ou “objeto”
![Page 109: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/109.jpg)
Normalização
2 - remoção símbolos que não tenham importância para o texto do documento
Exemplo:
(. , ; : " ’ ‘ ! ? / \ | % + { } [ ] ( ) *)
![Page 110: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/110.jpg)
Normalização
3 – Remoção de acentuação
Antes:
w = [“Vídeo”, “com”, “a”, “definição”, “de”, “Função”, “Afim”, “.”]
Após:
w = [“video”, “com”, “a”, “definicao”, “de”, “funcao”, “afim”]
![Page 111: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/111.jpg)
StopWords
Remoção de palavras que não tenham relevância
“o”, “a”, “seus”, “ela”, “e”, “com”, “de”
Antes:
w = [“video”, “com”, “a”, “definicao”, “de”, “funcao”, “afim”]
Depois:
w = [“video”, “definicao”, “funcao”, afim”]
![Page 112: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/112.jpg)
StemmingNormalização Morfológica
Normalização linguística.
As formas variantes de um termos são reduzidas a uma forma comum denominada stem.
Converte cada palavra para o seu radical.
Elimina: sufixos representados por flexões verbais , plural e gênero das palavras
Silla e Kaestner, 2002; Yamada et al.,2012
![Page 113: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/113.jpg)
StemmingNormalização Morfológica
Exemplo:
“brasileira”, “brasileiro”, “brasileirinha”, “brasileiresco”, “brasileiras”, “brasileiros”
stem: brasil
![Page 114: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/114.jpg)
StemmingNormalização Morfológica
Algoritmos para stemming
método do stemmer Smétodo de Portermétodo de Lovins
![Page 115: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/115.jpg)
StemmingNormalização Morfológica
Este é considerado o método mais simples, pois consiste na eliminação de apenas alguns finais de palavras. Geralmente remove somente sufixos que formam o plural.
método do stemmer S
![Page 116: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/116.jpg)
StemmingNormalização Morfológica
Identifica de diferentes inflexões referentes à mesma palavra e sua substituição por um radical comum.
Reduz do plural, troca de sufixos, retira de sufixos, remove de sufixos padrões e remove vogal “e” ao final da palavra
método de Porter
![Page 117: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/117.jpg)
StemmingNormalização Morfológica
Seu algoritmo remove apenas um sufixo por palavra, retirando o sufixo mais longo conectado à mesma
método de Lovins
![Page 118: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/118.jpg)
StemmingNormalização Morfológica
Orengo e Huyck (2001)
![Page 119: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/119.jpg)
StemmingNormalização Morfológica
Antes:
w = (“vídeo”, “definição”, “função”, afim”)
Depois:
ser w = (“vid”, “defin”, “func”, “afim”)
![Page 120: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/120.jpg)
Indexação
mapear os termos de um documento em uma estrutura de dados específica chamada de índice
Amazonas et al. (2008)
Índice Invertido e o Índice Sequencial
![Page 121: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/121.jpg)
Indexação
Índice Invertido
![Page 122: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/122.jpg)
Indexação
Índice Sequencial
![Page 123: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/123.jpg)
Mineração
A mineração de dados é um processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis disponíveis nos dados. O principal objetivo desta etapa é a descoberta de co-relacionamentos entre os dados e seus documentos.
(Morais e Ambrosio, 2007)
![Page 124: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/124.jpg)
Dúvidas?
![Page 125: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/125.jpg)
FontesBONFIM, Marcello Erick. RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS. Iniciação Científica Cesumar, v. 11, n. 2, 2009.
LOPES, Rafael Barbolo. sistemas de recomendação <http://www.slideshare.net/barbolo/sistemas-de-recomendacao>
Gois, Adriana; Berg, Anderson; Teixeira, Joyce V. . Sistemas de recomendação <http://www.slideshare.net/berg_pe/sistemas-de-recomendao-9889295>
Cazella, . Sílvio César . SISTEMAS DE RECOMENDAÇÃO. <http://www.nuted.ufrgs.br/compoa_2012_1/SRFColaborativa.pdf>
MORAIS, Edison Andrade Martins; AMBRÓSIO, Ana Paula L. Mineração de Textos. Relatório Técnico–Instituto de Informática (UFG), 2007.
GERALDO, André Pinto. Aplicando algoritmos de mineração de regras de associação para recuperação de informações multilíngues. 2009.
BAEZA-YATES e RIBEIRO-NETO apud LOPES, Giseli Rabello - Sistema de Recomendação para Bibliotecas Digitais sob a Perspectiva da Web Semântica. Porto Alegre: Programa de Pós-Graduação em Computação, 2007.
BASU, Chumki et al. Recommendation as classification: Using social and content-based information in recommendation. In: AAAI/IAAI. 1998. p. 714-720.
BRADLEY, Keith; SMYTH, Barry. Improving recommendation diversity. In:Proceedings of the Twelfth National Conference in Artificial Intelligence and Cognitive Science (AICS- 01). 2001.
GOLDBERG et.al. apud HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota.
![Page 126: Sistemas de recomendação](https://reader033.fdocuments.net/reader033/viewer/2022060119/558e0f261a28abfc768b457f/html5/thumbnails/126.jpg)
FontesFERREIRA, Vinicius Hartmann. Sistema de Recomendação de Objetos de Aprendizagem. TCC (graduação em Ciência da Computação) - Universidade do Vale do Itajaí, Itajaí, 2009. Disponível em : <http://Siaibib01.univali.br/pdf/Vinicius Hartmann Ferreira.pdf>.
LOPES, Giseli Rabello - Sistema de Recomendação para Bibliotecas Digitais sob a Perspectiva da Web Semântica. Porto Alegre: Programa de Pós-Graduação em Computação, 2007.
HERLOCKER, Jonathan Lee. Understanding and improving automated collaborative filtering systems. 2000. Tese de Doutorado. University of Minnesota.
KIM, Byeong Man et al. A new approach for combining content-based and collaborative filters. Journal of Intelligent Information Systems, v. 27, n. 1, p. 79-91, 2006.
LICHTNOW, Daniel et al. O uso de técnicas de recomendação para apoio à aprendizagem colaborativa. Revista Brasileira de Informática na Educação. vol. 14, n.3, set. 2006.
PAZZANI, Michael J.; BILLSUS, Daniel. Content-based recommendation systems. In: The adaptive web. Springer Berlin Heidelberg, 2007. p. 325-341.
SALTON, Gerard; BUCKLEY, Christopher. Term Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24 (5), 513-523, 1988.
VIEIRA, Felipe José Rocha; NUNES, Maria Augusta Silveira Netto. DICA: Sistema de Recomendação de Objetos de Aprendizagem Baseado em Conteúdo. Scientia Plena, v. 8, n. 5, 2012.
ZAINA, L., BRESSAN, G., CARDIERI, M., RODRIGUES JÚNIOR, J.. e-LORS: Uma Abordagem para Recomendação de Objetos de Aprendizagem. Revista Brasileira de Informática na Educação, 20, abr. 2012. Disponível em: <http://www.brie.org/pub/index.php/rbie/article/view/1289>. Acesso em: 15 Mai. 2013.