190 likes | 291 Views
Twarql Twitter Feeds through SPARQL. Павле Бајић 2011/3398 bp113398m@student.etf.rs. Садржај. Увод Идеја Проблем Twitter Twarql архитектура Примери GUI SPARQL PuSH PuSH дијаграм активности Алгоритми Twarql API Закључак Библиографија. Увод. Twitter feeds through SPARQL
E N D
Twarql Twitter Feeds through SPARQL Павле Бајић 2011/3398 bp113398m@student.etf.rs
Садржај • Увод • Идеја • Проблем • Twitter • Twarql архитектура • Примери • GUI • SPARQL PuSH • PuSH дијаграм активности • Алгоритми • Twarql API • Закључак • Библиографија
Увод • Twitter feeds through SPARQL • Pablo N. Mendes (Kno.e.sis), Alexandre Passant (DERI),Pavan Kapanipathi (Kno.e.sis),Amit P. Sheth (Kno.e.sis) • Део великог пројекта Linked Open Social Signalsкоји је базиран на идеји Linked Open Data (Препоручени процес откривања, дељења и повезивања делова података, информација и знања у Semantic Web-у коришћењем URIs и RDF) • Open source пројекатписан у Java програмском језику
Идеја • Мудрост масе • процес сабирања колективног размишљањагрупе индивидуалаца уместо једног експерта на неко питање • агрегирани одговори на питања из:квантитативних претпостављања, општег знања из целог света, и друго су се показали као бољи него било који одговор појединца из групе • Интуитивно објашњење овог феномена је да свака индивидуа унесе одређени “идиосинкратски шум”, али да средња вредност великог броја одговора поништава тај шум • Англо-саксонско право – суд пороте, а не судије • Wikipedia • Yahoo! Answers
Проблем • Сваке секунде, милиони Web корисника објављују microblogпоруке различитог садржаја (размишљања, посматрања и препоруке у виду кратких реченица, појединачне слике или видео линкови) • Друштвени сигнали (енгл. social signals) представљају непроцењиве информације за бизнис и истраживање • Како анализирати све те сигнале?
Twitter • 2007 > 5,000 twts/d • 2008> 300,000 twts/d • 2009 > 2,500,000 twts/d • 2010 > 35,000,000 twts/d • 2011 > 50,000,000 twts/d и више
Twitter • Терористички напади у Мумбају • Протести у Ирану • Deepwater Horizon излив нафте • Земљотреси • Приходи биоскопских представа • Берзе
Twarql архитектура • Извлачење садржаја (entity mentions, hashtags, URLs) • Превођење садржаја у структуирани формат (RDF)коришћењем дељених речника: (FOAF – friend of a friend, SIOC – semantically interlinked online communities, MOAT – meaning of a tag) • Структуирано претраживање микропостова (SPARQL) • Праћење низа микропостова који одговарају датој претрази (Concept Feeds) • Скалабилна доступност подацима у скоро реалном времену (SparqlPuSH)
Twarql архитектура • Скалабилно дохватање семантички анотиране информације у скоро реалном времену • Појединости у процесу дохватања тражених информација су архитектурално раздвојене: • Collection • Processing • Persistence • Subscription • Delivery • Основне компоненте: (i) Social Sensor Server,(ii) Semantic Publisher, (iii) Distribution Hub, (iv) Application Server.
Примери Низ локација где се производ IPad помиње тренутно: SELECT ? location WHERE { ? tweet moat : taggedWith dbpedia : IPad . ? presence opo: currentLocation ?location . ? presence opo: customMessage ? tweet . } Низ корисника који су рекли нешто негативно о производу IPad: SELECT ? user WHERE { ? tweet sioc:has_creator ? user . ? tweetmoat:taggedWith dbpedia : IPad . ? tweet twarq : sentiment twarql:Negative . }
SPARQL PuSH • pubsubhubbub (PuSH) – open source server-to-server web-hook-based pubsub (publish/subscribe) протоколкао проширење за Atom и RSS (Google Reader) • У случају Twarql - за SPARQL крајње тачке (енгл. endpoints) • Обезбеђује резултате SPARQL претраге као RSS новостикоје су повезане са : • SPARQL/Update triggers • PuSH hubs за обавештења у реалном времену о новим подацима који одговарају датој претрази
Алгоритми • Social Sensor function PUBLISH(aTweet) { for each registered feed { if(aTweet matches feed.query) UPDATE(feed.hub) } }
Алгоритми • Semantic Publisher while(tweet = LISTEN(stream)) { aTweet = ANNOTATE(tweet) PUBLISH(aTweet)}
Twarql API • REST Endpoints • http://knoesis1.wright.edu/twarql/search?keyword=k1,...,kn&output=<output type> • input: keywords, output type (tweets, entities, sparql) • output: tweets, entities, triples • http://knoesis1.wright.edu/twarql/search?keyword=k1,...,kn&output=<output type> • D2R • http://knoesis1.wright.edu/twarql/register?query=<sparql query>&id=<concept feed id> • #id • http://knoesis1.wright.edu/twarql/stream?keyword=k1,...,kn&id=<registered concept feed id>&output=<output type>
Twarql API • http://knoesis1.wright.edu/twarql/search?keyword=veljko%20milutinovic&output=tweets {"annotatedtweets":[{"content":"Introduction to Microprogramming: http://t.co/iQnveoPN","id":147005353798795264,"entities":["introduction"],"user":"Kristynlwf"}]} • http://knoesis1.wright.edu/twarql/search?keyword=veljko%20milutinovic&output=entities {"entities":[{ "name":"introduction","tweet":"Introduction to Microprogramming: http://t.co/iQnveoPN","occurrence":1}] }
Закључак • Релевантност информација • Комерцијална вредност • Претрпавање информација • Анотације • Доступност информација
Библиографија • Pablo N. Mendes, Alexandre Passant, Pavan Kapanipathi, “Twarql: Tapping Into the Wisdom of the Crowd” • Pablo N. Mendes, Alexandre Passant, Pavan Kapanipathi and Amit P. Sheth, “Linked Open Social Signals”, Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference • http://linkeddata.org/ • http://www.slideshare.net/pablomendes/streaming-annotatedtweets?from=ss_embed • http://wiki.knoesis.org/index.php/Linked_Open_Social_Signals • http://blog.twitter.com/2011/03/numbers.html • http://blog.twitter.com/2010/02/measuring-tweets.html • http://en.wikipedia.org/wiki/Microblogging • http://en.wikipedia.org/wiki/Wisdomofthecrowd • http://code.google.com/p/pubsubhubbub/