1 / 20

Recomendação de hashtags para o Twitter

Recomendação de hashtags para o Twitter. Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira. Twitter. Criado em 2006 Rede social, microblogging Textos de até 140 caracteres (tweets) Atualização via site, RSS ou SMS Serviço gratuito. Hashtags.

sunila
Download Presentation

Recomendação de hashtags para o Twitter

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recomendação de hashtags para o Twitter Aluno: Paulo Roberto Cólen Reis Orientador: Marcos Gonçalves Co-orientador: Anderson Ferreira

  2. Twitter • Criado em 2006 • Rede social, microblogging • Textos de até 140 caracteres (tweets) • Atualização via site, RSS ou SMS • Serviço gratuito

  3. Hashtags • Conjunto de caracteres iniciado por “#” • Utilizadas para “categorizar” um tweet • Um determinado acontecimento/assunto pode ser citado utilizando diversas tags • Grupos de usuários interrelacionando-se isoladamente uns dos outros

  4. Objetivo do trabalho • Descobrir uma metodologia para recomendar hashtags para os usuários do Twitter, com base no que está sendo falado no momento • “Convergência” das hashtags: mais pessoas falando sobre o mesmo assunto utilizando as mesmas hashtags

  5. Metodologia • Estudo de algoritmo para detecção de tópicos • Preparação base de tweets para aplicação de algoritmo e análise posterior • Criação modelo de representação de tópicos • Criação de técnica para escolha de hashtags para recomendação • Testes e análise finais

  6. Cronograma

  7. Cronograma

  8. Base de tweets • Extraídaem 2009 • 828591 13833801 NULL NULL <d>2007-03-27 20:21:14</d> <s>web</s> <t>Quote of the day: &amp;lt;Amish&amp;gt; Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)</t> LuckyPhil 40 68 232 36000 0 0 <n>Phillip Welch</n> <ud>2007-03-09 10:00:51</ud> <t>Sydney</t> <l>iPhone: -33.789539,151.125092</l> • Quote of the day: <Amish> Moonlit, Michael Jackson has a cool body (from irc.hak5.org #hak5)

  9. Detecção de tópicos • Algoritmo LDA (Latent Dirichlet Allocation) • Detecção de tópicos em coleções de documentos não rotulados • Probabilístico: caracteriza a construção de documentos a partir de distribuições de probabilidades • Iterativo: associa inicialmente de maneira aleatória tópicos  documentos/palavras e melhora a solução atual • Convergência

  10. Detecção de tópicos • Processo de criação de um documento w em um corpus D: • Escolher N ~ Poisson(ξ) • Escolher θ ~ Dir(α) • Para cada uma das N palavras wn • Escolher um tópico zn ~ Multinomial(θ) • Escolher uma palavra wn com p(wn|zn, β), uma probabilidade multinomial condicionada ao tópico zn

  11. Detecção de tópicos ? Documento X Tweet X

  12. Detecção de tópicos • Distribuição de termos por tópico • Distribuição de tópicos por documentos (hashtags) Documento X #hashtag

  13. Detecção de tópicos • Parâmetros: • número de tópicos: definido com base em testes • número de iterações • α = 50/(número de tópicos) • β = 0,01 • Stoplist: lista de stopwords

  14. Modelagem de tópicos • Modelo de tópicos: • Obtido diretamente a partir da execução do LDA • Distribuição de probabilidade de tópicos por token t1 t2 t3 tn … …

  15. Similaridade de tópicos • Para cada token, é somada sua distribuição de probabilidade sobre tópicos Normalização t1 t2 t3 ∑ … …

  16. Similaridade de tópicos • Normalização • Valores entre 0 e 1 • Valores a serem selecionados muito próximos • Aspectos de linguagem podem definir hashtag a ser escolhida: • Tamanho da hashtag • Presença de determinados caracteres

  17. Testes • Validação cruzada • LDA utilizando 80% da base • 20% restantes utilizados para testar o treino realizado Treino Teste 20% 20% 20% 20% 20%

  18. Testes • Resultado esperado: • % de recomendação de hashtags que, no mínimo pertençam ao mesmo tópico das hashtags contidas no tweet • Trabalhos futuros terão como objetivo recomendação da hashtag exata

  19. Próximospassos… • Melhoria do desempenho do LDA • Estimativa de parâmetros internos • Consideração maior de aspectos linguísticos • Idioma (?)

  20. Obrigado

More Related