1 / 8

Hive ( Hadoop )

Hive ( Hadoop ). Pavol N ágl xnagl @ is.stuba.sk Vyhľadávanie informácií , 2009. Hive ( Hadoop ). Data Warehouse systém pre veľké množsto dát Vznikol z potreby Facebooku, ktorý dnes generuje denne desiatky TB metadát

howell
Download Presentation

Hive ( Hadoop )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hive (Hadoop) Pavol Nágl xnagl@is.stuba.sk Vyhľadávanie informácií, 2009

  2. Hive (Hadoop) • Data Warehouse systém pre veľké množsto dát • Vznikol z potreby Facebooku, ktorý dnes generuje denne desiatky TB metadát • Doteraz používaný spôsob spracovania prostredníctvom Oracle a ETL bol nedostačujúci

  3. Podobné riešenia • Vertica analytics database • http://www.vertica.com/ • Sybase IQ • http://www.sybase.com/products/datawarehousing/sybaseiq

  4. Prostredie Cloudera Image – predinštalované testovacie prostredie • Hadoop 0.20 (pre file system) • Hive (data warehouse nadstavba Hadoop)

  5. Dáta Ako testovacie dáta boli použité dlhé romány v plain text formáte • „hugovictetext94lesms10.txt“ predstavuje knihu „Bedári“ od Viktora Huga. Obsahuje približne 200 000 slov • Súbor „w&p_complete.txt“ Predstavuje knihu „Vojna a mier“, ktorú napísal Leo Tolstoy. Obsahuje približne 550 000 slov

  6. Popis testovania Hive • Nahranie údajov (romány v plain text formáte) do Hadoop file system • Analýza údajov v Hadoop (Word Count) • Vytvorenie štruktúr v Hive • Nahranie údajov do štruktúr v Hive • Analýza údajov v Hive ( analýza výskytu slov v románoch s braním ohľadu na rozsah textu a bez neho)

  7. Výsledky (absolútne početnosti) • Tabuľka 1- - absolútny počet výskytov slov

  8. Výsledky (relatívne početnosti) • Tabuľka 2 - relatívny počet výskytov slov

More Related