1 / 24

Big Data analytics

Big Data analytics. Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András benczur @ sztaki.mta.hu http://datamining.sztaki.hu. Big Data: volume , velocity , variety.

leroy
Download Presentation

Big Data analytics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András benczur@sztaki.mta.hu http://datamining.sztaki.hu Big Data @ SZTAKI

  2. Big Data: volume, velocity, variety • “big data” is when the size of the dataitself becomes part of the problem • “big data” is data that becomes largeenough that it cannot be processed using conventional methods • Google sorts 1PB in 33 minutes (07-09-2011) • Amazon S3 store contains 499B objects (19-07-2011) • New Relic: 20B+ application metrics/day (18-07-2011) • Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011

  3. Big Data: volume, velocity, variety media pricing fraud detection transportation Online reputation Proprietary hardware newscuration Revolution Focused Services Matlab SPSS speed SAS R Proprietary code SciPy Mahout real time KDB scale Netezza Big Analytics Vertica Esper velocity HBase Greenplum Fast Data MapR InfoBright Progress Hadoop MySql batch volume MBs PBs

  4. Big Data: volume, velocity, variety Virtual Web Observatory Mobility Social Media Stratosphere streamingapps Web analytics Focused Services speed GraphLab Stratosphereanalyticsapps real time scale Storm Big Analytics SAP HANA velocity Stratosphere Fast Data BUbiNGcrawler MemoryBot batch batch volume MBs PBs

  5. Virtuális Web Obszervatórium

  6. Virtuális Web Obszervatórium • TREC Web gyűjtemény (2012) • 2 Mrd angol nyelvű HTML

  7. Virtuális Web Obszervatórium • Web Crawl, Internet MemoryFoundation, Paris/Amsterdam

  8. Virtuális Web Obszervatórium • 1.2 Mrd Tweet

  9. Virtuális Web Obszervatórium • Angol Wikipedia letölthető adata • 170 havi pillanatkép 2013 májusig

  10. Virtuális Web Obszervatórium • Nagy általános ontológia • Wikipedia, DBPediaés egyéb források • Max Planck Saarbrücken

  11. Gráfvizualizáció • YAGO entitások • kapcsolatok

  12. Steve Jobs tag cloud időben

  13. Saját hardver infrastruktúra

  14. Ajánló rendszerek - mátrixfaktorizáció • Felhasználói értékelés mátrix (R) pl. 1M x 10,000 • Termék (pl. film) 1-5 „csillaggal” • Kitöltöttség 1% alatt • Feladat: a hiányzó értékelések megbecsülése • Kiértékelés • Teszt adat (pl. jövőbeli értékelés) • Hibamérték • RMSE (Root Mean Squared Error) • Leggyakrabban alkalmazott • Nagy büntetés a nagy tévedésekre • MAE (Mean Absolute Error) • Mátrixfaktorizáció (regularizált)

  15. R P 1 4 3 1,1 -0,2 1,2 -0,3 1,1 -0,4 1,2 -0,5 4 4 1,2 0,9 1,1 0,8 1,2 0,9 0,5 -0,3 0,4 -0,4 0,4 -0,2 0,5 -0,1 4 2 4 1,5 1,3 1,4 0,9 0,8 -1,2 -1,1 -1,3 0,0 -0.1 0,1 0.6 0.5 Q -0,1 -0,2 0,0 0,4 0,5 -0,3 -0,2 -0,4 1,5 1,6 1,6 0,2 0,3 Forrás: Tikk Domonkos, Gravity

  16. Forrás: Tikk Domonkos, Gravity

  17. R P 3.3 2.4 1 4 3 1,4 1,1 -0.5 3.5 4 4 1.5 0,9 1,9 2,5 -0,3 4.9 1.1 4 2 4 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity

  18. Smart City – mobilitási adatok • Mobilitási adatok többcélú elemzése • Mobil szolgáltatás minősége • Személyre szabott profilépítés térben és időben • Felhasználó és helyszín modellek építése és előrejelzés • Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés • Intelligens város alkalmazások • Többtényezős optimalizáció (ár, idő – elektromos autók!) • Tömegközlekedés • Katasztrófahelyzetek, nagy rendezvények biztosítása • Metropolisz adatmennyisége • Tárolásra nincs idő (volume) • Azonnali reakció (velocity) • Mozgás, események, tartalomfogyasztás, közösség (variety)

  19. Mobilitás adatfolyam kísérlet (Orange D4D)

  20. Mobilitás adatfolyam osztott feldolgozása Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben

  21. Big Data kutatások kapcsolódásai Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Ajánló rendszerek Tudományos publikációk Közösségi hálózatok SZTAKI kísérleti felhő Wigner, MTA, … Elosztott technológia keretrendszerek

  22. Összefoglalás Big Data feladatok jellemzői • Adat „más célból” gyűlik • Nincs mintavételezés – statisztikai szignifikancia? • Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek • Web, közösségi média, virtuális Web obszervatórium • Ajánló rendszerek, vásárlói szokások • Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra • Stratosphere (TU Berlin, EIT ICTLabs) • GraphLab (CMU, HUJI – LAWA projekt) • SAP HANA

  23. A Big Data nem csodafegyver! NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.

  24. Köszönöm a figyelmet! Big Data @ SZTAKI

More Related