1 / 66

Mecanismos de Busca na Web

Mecanismos de Busca na Web. Tópicos. Internet :Informação Caótica Mecanismos de Busca : Informação Organizada O que são Mecanismos de Busca “searchs” Tipos e Finalidades Estratégia de Busca Exercitando os conceitos ( exemplos ) Referências. Internet - Informação Caótica.

Download Presentation

Mecanismos de Busca na Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mecanismos de Busca na Web Centro de Computação

  2. Tópicos • Internet :Informação Caótica • Mecanismos de Busca : Informação Organizada • O que são Mecanismos de Busca “searchs” • Tipos e Finalidades • Estratégia de Busca • Exercitando os conceitos ( exemplos ) • Referências Centro de Computação

  3. Internet - Informação Caótica • Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute • Crescimento exponencial: 1/3 ao ano (últimos 2 anos). • 80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA Centro de Computação

  4. Internet - Informação Caótica • O ciclo da informação na Internet : Pessoas Pessoas Informação conhecimento comunicação consumo Informação Qualificada Internet Internet Centro de Computação

  5. Pausa para reflexão • pesquisa Cadê/Ibope: • dos internautas brasileiros 63% são do sexo masculino • 68% são jovens de idade 15 a 29 anos • 79% livre de compromissos (solteiros ou separados) • 59% tem renda que variam de 10 a 50 salários mínimos Centro de Computação

  6. Internet - Informação Caótica • A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica). • Difícil localização de documentos, seu autor, data de validade (da informação), etc ... • É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente. Centro de Computação

  7. Mecanismos - Informação Organizada • Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca). • Websites com recursos sofisticados: • banco de dados • linguagens • pesquisa simples e avançada • velocidade • tratamento diferenciado ( personalizado ) • grandes portais (vendas, serviços, help,etc) Centro de Computação

  8. Mecanismos - Informação Organizada • A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa. • A indexação na web é um trabalho gigantesco e interminável. Centro de Computação

  9. Mecanismos - Informação Organizada • A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores : • assunto disponível e indexado ou selecionado por algum mecanismo de busca. • as palavras chaves (argumento da pesquisa) são suficientemente específicos para obtenção de um resultado satisfatório. Centro de Computação

  10. Mecanismos - Informação Organizada • Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil. • Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim. Centro de Computação

  11. Pausa para reflexão • Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google. • Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos. Centro de Computação

  12. O que é Mecanismo de Busca • É um grande índice (catálogo de biblioteca). • Faz todo trabalho de organização das páginas espalhadas pela Web. • Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos. • São os grandes "culpados" pelo crescimento exponencial da Internet. Centro de Computação

  13. Mecanismos de Busca - Perfil • Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ). • Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de email gratuitas, seções direcionadas a determinadas faixas etárias, etc ). • Sofisticados : linguagem natural ( coloquial ). Centro de Computação

  14. Mecanismos de Busca - Perfil • Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram). • Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?). • Maiores catálogos de vendas de produtos encontrados em um só lugar. Centro de Computação

  15. Mecanismos de Busca - Perfil Fonte: searchengine watch Centro de Computação

  16. Mecanismos de Busca - Perfil Fonte: searchengine watch Centro de Computação

  17. Mecanismos de Busca - Perfil • Alguns dados : • Yahoo - 50 milhões de visitas/mês. • UOL - 45 milhões de visitas/mês. • UNICAMP - 1,8 milhões de visitas/mês. • 60% da web é indexada. • Mais de 80% da web possui informação não qualificada • Cresce 1/3 ao ano (dados 2 últimos anos) • Estatísticas mostram que 7% dos usuários navegam além da 3ª página de resultados) Centro de Computação

  18. Tipo de Mecanismos - Índices • Genéricos ou Especializados • Spiders / Robôs varrem a internet buscando páginas, indexando-as e criando seu próprio banco de dados. • Algoritmos de busca que acham e trazem documentos relevantes para a pesquisa do usuário. Centro de Computação

  19. Tipo de Mecanismos - Índices • Algoritmos comuns de pesquisa: • número de ocorrências do argumento de pesquisa (maior probabilidade de ser um documento que você procura) • argumento encontrado no TITLE da página • argumento em negrito • tamanho de fonte maior • mede popularidade da página (número de links que apontam para ela) Centro de Computação

  20. Tipo de Mecanismos - Índices • Principais diferencas entre eles: • Capacidade de armazenagem no banco de dados. • Frequência de atualização. • Capacidade de busca (amplitude). • Velocidade de recuperação de resultados • Interface (design) na mostra dos resultados. • Recursos avançados (tradução, linguagem natural, operadores booleanos). Centro de Computação

  21. Tipo de Mecanismos - Índices • Cobrem todo tipo de assunto possível, não fazem distinção entre os sites que indexam ( pesquisa por softwares ) . • Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados. Centro de Computação

  22. Tipo de Mecanismos - Índices • são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto. • Os índicesespecializados são numerosos e em grande parte desconhecidos. Centro de Computação

  23. Tipo de Mecanismos - Índices • Os índicesespecializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso). • Os índicesespecializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ). Centro de Computação

  24. Tipo de Mecanismos - Índices • Exemplos de índices genéricos • AltaVista (http://www.altavista.com) • Excite (http://www.excite.com) • FAST (http://www.alltheweb.com) • Google (http://www.google.com) • HotBot (http://www.hotbot.com) • Infoseek (http://infoseek.go.com) • Northern Light (http://www.northernlight.com) Centro de Computação

  25. Tipo de Mecanismos - Índices • Exemplos de índices específicos • medicina • http://www.medscape.com/ • http://www.planetavida.com.br/ • música • http://www.mp3.com • softwares • http://www.tucows.com • pesquisas • http://www.cnpq.br Centro de Computação

  26. Tipo de Mecanismos - MetaSearchs • não possuem índices próprios • submetem as perguntas formuladas a vários indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final. • adotam um mínimo denominador comum na forma como as pesquisas são submetidas. Centro de Computação

  27. Tipo de Mecanismos - MetaSearchs • O serviço de metabusca Profusion, http://www.profusion.com , é um dos mais conceituados da rede. • Brasil : MetaMiner ( http://www.miner.com.br ) • programas em seu computador que realizem metabuscas ( gratuitos ). Ex: Copernic99 - http://www.copernic.com Centro de Computação

  28. Tipo de Mecanismos - Diretórios • Funcionam de forma diferente dos Índices. • Organizados hierarquicamente. • A busca e organização das informações é feita por seres humanos e somente a home page de um site é indexada. • Vantagem : probabilidade reduzida dos resultados estarem fora do contexto. Centro de Computação

  29. Tipo de Mecanismos - Diretórios • Possuem um mecanismo de busca interno. • A informação é dividida em categorias. • P. ex.: "Elvis Presley" encontramos em "sociedade e cultura"  "musica"  "cantores" • Funcionam como catálogos on-line e são um grande potencial comercial para os websites em geral (visibilidade na lista de links). Centro de Computação

  30. Tipo de Mecanismos - Diretórios • São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários. • Exemplos de Diretórios : • LookSmart ( http://www.looksmart.com ) • Cadê ( http://www.cade.com.br ) • Radix ( http://magellan.excite.com/ ) • Open Directory ( http://dmoz.org ) • Yahoo ( http://www.yahoo.com ) Centro de Computação

  31. Tipo de Mecanismos - Dir. Abertos • Especialistas nos assuntos compilam as informações com maior qualidade e precisão • Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura) • Exemplos: • IVOX ( http://www.ivox.com.br ) • About.com (http://about.com) • WWW Virtual Library (http://www.vlib.org) Centro de Computação

  32. Tipo de Mecanismos - Desvantagens • Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ). • Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise). Centro de Computação

  33. Mecanismos - Estratégia de Busca • Formule uma questão e seu escopo. • Ex: “quais são as escolas de samba do carnaval do Rio de Janeiro?” • Identifique os conceitos importantes dentro da questão (palavras chave). • Ex: “escolas de samba”, “Rio de Janeiro” • Considere possíveis sinônimos e variações das palavras chaves. • Ex: “carnaval carioca” (não é um bom argumento) Centro de Computação

  34. Mecanismos - Estratégia de Busca • Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ). • Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ). Centro de Computação

  35. Mecanismos - Estratégia de Busca • Identificar mecanismosde busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ). • As técnicas básicas de busca atendem a grande maioria dos usuários. • Verifique sempre o help / ajuda . Centro de Computação

  36. Mecanismos - Estratégia de Busca • Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci” • Palavras em minúsculo --> maiúsculo /minúsculo • Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado. Centro de Computação

  37. Mecanismos - Estratégia de Busca • Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc ... Centro de Computação

  38. Pesquisando na Web - Estrutura • Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo : • Título • Autor • Descrição • Corpo do documento Centro de Computação

  39. Pesquisando na Web - Estrutura • Exemplo : “tomates” • Resultado da pesquisa: • doc. de título : “Filme -Tomates Verdes Fritos” • doc. que fala sobre o assunto: “cultivo de tomates” Centro de Computação

  40. Pesquisando na Web - Pesquisa Booleana • Pesquisa Booleana : • use as palavras AND, OR, NOT para expandir e limitar as buscas. • Permite combinar os termos de pesquisa. • Mais úteis em buscas complexas. • São conhecidos também como Operadores Booleanos. Centro de Computação

  41. Pesquisa Booleana - “AND” • AND • combina palavras e/ou frases, permitindo que ambas estejam presentes nos resultados. • “eu estou interessado em soja que são transgênicas” • sintaxe: “soja AND transgênica” Centro de Computação

  42. Pesquisa Booleana - “OR” • OR • combina palavras e/ou frases, trazendo resultados que possuam pelo menos uma das combinações. • “eu estou interessado em soja ou produtos transgênicos” • sintaxe:“soja OR transgênico” Centro de Computação

  43. Pesquisa Booleana - “NOT” • NOT • exclue palavras e/ou frases dos resultados da pesquisa. • “estou interessado em informações sobre soja excluindo-se docs que citam problemas transgênicos” • sintaxe: “soja NOT transgênico” Centro de Computação

  44. Pesquisa Booleana - Combinação • AND, OR e NOT • “Eu quero aprender a cozinhar com ervas ou pimenta” • sintaxe: “cozinhar AND (ervas OR pimenta)” • ou “receita AND (ervas OR pimenta)” Centro de Computação

  45. Pesquisando na Web - Adição/Subtração • adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”. • subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda” • CUIDADO !!!!!! Centro de Computação

  46. Pesquisando na Web - Funções especiais • TITLE - pesquisar pr título do documento • Ex: “TITLE:Gazeta Mercantil” • HOST - traz páginas indexadas de um site. • Ex: “HOST:www.unicamp.br nuclear” • URL - traz páginas que contém este parâmetro no texto de sua URL. • Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço. • “http://www.microsoft.com” ou • “http://www.software.com/microsoft” Centro de Computação

  47. Pesquisando na Web - Funções especiais • LINK - identifica todas as páginas que possuem um link definido neste parâmetro. • Ex: “LINK: mailto:gian@ccuec.unicamp.br” • IMAGE - traz páginas que contém arquivos com os nome definidos neste parâmetro. • Ex: “IMAGE:basket*.jpg” • Ex: “IMAGE:vinci” Centro de Computação

  48. Pesquisando na Web - Proximidade • NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita-se encontrar documentos em que estas palavras aparecem sem ligação entre elas ). • Ex: “cpi NEAR narcotráfico” Centro de Computação

  49. Pesquisando na Web - Perfil • Assuntos relacionados ao argumento de pesquisa. • Ex: viagem (viagem aérea, descontos de viagem, agências de viagem, etc ...). Altavista, GoTo, HotBot, Infoseek, Excite; • Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa. • Ex: Altavista, GoTo, HotBot, Infoseek, Excite, Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site); Centro de Computação

  50. Pesquisando na Web - Perfil • Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas. • Ex: Altavista, Google; Centro de Computação

More Related