1 / 21

Webbányászat RapidMinerben

Webbányászat RapidMinerben. Kovács Balázs PTE KTK GMI KovacsB @ ktk.pte.hu. Web crawling Miket csiripelnek a madarak ?. friday. inflation. european. reuters. year. eurostat. february. central. vs. eu. annual. month. office. expectations. area. stays. uk. street. bank.

Download Presentation

Webbányászat RapidMinerben

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WebbányászatRapidMinerben Kovács Balázs PTE KTK GMI KovacsB@ktk.pte.hu

  2. Web crawlingMiket csiripelnek a madarak? friday inflation european reuters year eurostat february central vs eu annual month office expectations area stays uk street bank sharing journal day hits feb came percent falls s wall ecb said low dollar monetary january africa dipped danger zone rate rose euro countries data statistics bloomberg

  3. Twitter üzenetek követése

  4. RapidMiner felhasználói felülete Megnevezés Output csatlakozó, az output típusával out out out inp inp inp Input csatlakozó, az elvárt input típusával Main Process Operátor doboz csatlakozókkal, típus-ikonnal és állapotjelzőkkel Fő munkamenet input és eredmény csatlakozókkal Hiba a csatlakozónál res inp Csatlakozás, adatfolyam

  5. Webes tartalomelemzést segítő könyvtárak

  6. A folyamat megvalósítása RapidMinerben

  7. Makó és Jeruzsálem: Tényleg messze vannak? Menyire különböznek egymástól a hírek? válogatott európai paralimpiai_bajnok oscar_pistorius amely bizonyos tavaly_februárban számos szakértõje kedden alatt angol miatt mint lelövõ_paralimpiai közel Gazdaság gazdasági lehet nemzeti tavaly csapat ügyvédi ben egyre mellett februárban_lelövõ bajnok nyert ezért ügy több bajnok_futó lesz ügyvédi_iroda kell labdarúgó lesznek nap hazai pedig csak más leírt második iroda után vagy barátnõjét fel iroda_szakértõje tartott által futó aki sem tanú héten emberek azt egyik azonban nagyon így pistorius Sport kutatók olyan lelövõ amerikai utolsó oscar két föld óriási jól tartják szerdán között felelõs szerint volt februárban ilyen többet május azok nagy paralimpiai ismert össze meg szövetségi majd Tudomány

  8. Asszociációs szabályok

  9. Asszociációbányászat

  10. PredictiveanalyticsMikor törik el a korsó? „A befektetők az Ukrajna és Oroszország közötti feszültség kiéleződése miatt szerte a világon csökkentették részvénypiaci kitettségüket, és a hagyományosan biztonságosnak tartott "menedékeszközökbe", német, amerikai államkötvényekbe, aranyba, japán jenbe, svájci frankba csoportosították át, emiatt Ázsiában, Európában és Amerikában is estek a tőzsdeindexek.” • Privátbankár, MTI

  11. Tőzsdei hírbányászat

  12. Köszönöm a figyelmet!

  13. Webbányászatfajtái

  14. Webes tartalombányászat lépései

  15. Korpusz összeállítása

  16. Dokumentumok előkészítése

  17. A fenti mátrix segítségével előálló szöveg-reprezentációt vektor-tér modellnek nevezzük. Mátrixalgebrai műveletek végezhetők a TDM-en (term-documentmatrix) Szó-dokumentum mátrix

  18. Dokumentumok elemzési lehetőségei

  19. A dokumentumtávolságok gráfon szemléltetve

  20. Ajánlott irodalmak • Dokumentum-előfeldolgozás • HTML/XML • http://hu.wikipedia.org/wiki/HTML • http://hu.wikipedia.org/wiki/XML • Szavakra bontás • http://en.wikipedia.org/wiki/Tokenization • Szöveg átformálása • http://en.wikipedia.org/wiki/Tag_cloud • http://en.wikipedia.org/wiki/Vector_space_model • http://en.wikipedia.org/wiki/Bag-of-words_model • http://en.wikipedia.org/wiki/Lexical_analysis • RegEx • http://www.regular-expressions.info/ • RSS • http://en.wikipedia.org/wiki/RSS • Web crawler • http://en.wikipedia.org/wiki/Web_crawler • http://en.wikipedia.org/wiki/Web_scraping • Dokumentumok elemzése • http://en.wikipedia.org/wiki/Topic_model • http://en.wikipedia.org/wiki/Semantic_similarity • http://en.wikipedia.org/wiki/Association_rule_learning • http://en.wikipedia.org/wiki/Document_clustering • http://en.wikipedia.org/wiki/Document_classification

  21. Felhasznált anyagok • http://privatbankar.hu/reszveny/vege-putyin-hadgyakorlatanak-megkonnyebbulhetnek-a-piacok-266579 • Logók: • http://www.feedicons.com/ • https://about.twitter.com/press/brand-assets • http://commons.wikimedia.org/wiki/File:Google-News_logo.png • http://commons.wikimedia.org/wiki/File:Rapidminer_logo.jpg • Szolgáltatások: • http://www.queryfeed.net/ • http://itouchmap.com/latlong.html • http://www.microsoft-careers.com/ • http://www.origo.hu/index.html • https://www.google.com/finance • Package-ek: • http://cran.r-project.org/web/packages/wordcloud/

More Related