300 likes | 355 Views
ONDUXHadoop: Extração de dados em BigData. Universidade Federal do Amazonas Instituto de Computação. Gerência de Dados na Web: Especial Big Data. André Porto. Roteiro. Introdução Motivação ONDUX ONDUXHadoop Resultados Obtidos Conclusão Hands on. Introdução.
E N D
ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação Gerência de Dados na Web: Especial Big Data André Porto
Roteiro • Introdução • Motivação • ONDUX • ONDUXHadoop • Resultados Obtidos • Conclusão • Hands on
Introdução • Abundância de registros não estruturados na Web em forma textual. • Endereços postais. • Citações Científicas. • Anúncios de Imóveis. • Artigos Científicos. • Ofertas de produtos. • Etc…
Desafios • Enorme quantidade de dados • Dados semi-estruturados • Domínios diversificados • Grande esforço humano
Motivação • Informações Textuais • Ricas de informações e não estruturadas • Necessidade de recuperar informações • Estruturar em bancos de dados • Mineração de Dados. • Comparação de Registros. • Filtros • Consultacomplexas
Como extrair? • ONDUX(Cortez@SIGMOD`10) • Método de extração de informação • Segmentação do texto. • Método probabilístico. • Utiliza Base de Conhecimento.
ONDUX • Entradas • Registros que se deseja classificar. • Base de Conhecimento. • Saídas • Registros rotulados. • Possibilidade de armazenamento em arquivos estruturados(CSV e XML).
Exemplo de registro • Smartphone Moto G Colors Edition Dual Chip Desbloqueado 3G Câmera 5MP 16GB Android 4.3 R$ 799,00 • Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00 • Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00 • Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00
Exemplo de Base de Conhecimento • XML • Par (Atributo, Exemplo de Valor) <outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn</outros> <processador> Processador Single Core </processador> <processador> Quad Core </processador> <sistema_operacional> Android 4.3 </sistema_operacional> <modelo> Galaxy SIII I9300 </modelo> <modelo> Optimus Hub E510 </modelo> <cor> Preto</cor> <marca> Nokia </marca> <marca> LG </marca>
Blocking Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13MP Wi-Fi 4G Por: R$ 2.899,00
Matching Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Categoria Marca Modelo Cor Smartphone Samsung Galaxy Note III Branco ??? Câmera Processador Android 4.3 Câmera de 13MP Quad Core Outros ??? Preço 4G Wi-Fi Por: R$ 2.899,00
PSM 65% 35% 57% Início 12% Cor Marca 90% 90% Modelo Categoria 82% 13% 45% 55% 17% 21% Processador 9% Câmera ??? 78% 55% Fim 44% 67% 94% Preço 98% 35% Outros 8%
Reinforcement Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Categoria Marca Modelo Cor Smartphone Samsung Galaxy Note III Branco SO Câmera Processador Android 4.3 Câmera de 13MP Quad Core Outros Outros Preço 4G Wi-Fi Por: R$ 2.899,00
ONDUX Hadoop • Possibilidade de utilizarBigData • Melhorianaextração de dados • Foconaetapa Matching e Reinforcement • Geração de blocos • DetectarAmbiguidade • PSM semruídos
ONDUX Hadoop • Hadoop Single Node • Versão 1.2.1 • Framework MapReduce • Entrada: Blocosrotulados • Saída: Montagem de registrosfiltrados
ONDUX Hadoop • Matching geraentrada do Hadoop • smartphone-categoria-0-1:0 • android 41-sistema_operacional-4-0.81:0 • 3g-atributos-1-0.51:1 • proc quad core-processador-10-0.75:1 • … valorBloco – atributo – posição – score : id_registro
MapReduce • MAP • IDRegistro : quádrupla • Reduce • ID Registro : RegistroFiltrado • Gera registrosemunmatch e maiorquelimiar(0.15) • Remove ruídos no PSM
ONDUXHadoop ONDUX DadosExtraídos
MapReduce • Reduce
Avaliação • 150 registros • 51 registrosmodificadoscomo novo PSM • Total de 164 rotulações • 82 blocosporimplementação • Avaliação Manual • Ganho de 65%!
Trabalhos Futuros • Gerar mais de um bloco por termo para detectar ambiguidades • Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico. • Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho • Desenvolver Matching dentro do Hadoop
Conclusão • Grandes possibilidades de melhoria do ONDUX • PSM sem ruído consegue melhorar a extração de dados • Implementação em Hadoop possibilita utilização em grande escala de dados