Tra il 2010 e il 2011 un gruppo di ricerca inglese ha realizzato uno studio sulle caratteristiche che rendono i Tweet maggiormente appetibili per i RT. Il lavoro è stato pubblicato sulla rivista Association for the Advancement of Artificial Intelligence (www.aaai.org) nel 2011.

Si tratta del primo studio realizzato con un set di variabili e su una base campionaria sufficientemente ampi e diversificati da rendere la ricerca di Petrovic et. al. innovativa e dai risvolti interessanti.

I risultati

I risultati dimostrano in sostanza che per essere RT un tweet deve avere le seguenti caratteristiche:

  • essere scritto da un utente con elevato numero di followers e amici. In questo senso i ricercatori hanno confermato i risultati della ricerca condotta pochi mesi prima da Suh et. al.
  • essere scritto da un utente inserito o iscritto in liste, è una variabile che ha dato buoni risultati e sui quali i ricercatori insistono
  • i peggiori risultati invece sono stati trovati per quanto riguarda le menzioni degli utenti che scrivono i tweet e la presenza di menzioni nei tweet stessi
  • deve contenere alcuni tipi di hashtag: non tutti gli hashtag sono ugualmente favorevoli per il RT. Risultano i più correlati ai RT ad esempio i seguenti:
    • #ff (follow friday)
    • #ww (woof Wednesday)
    • #fblikes
    • quelli strettamente legati al mondo degli adoloscenti come: #ohmyteenager, #omgteenquotez,  #dailyteen,    #teenagersfacts e altri
  • sono rilevati  “negativi” invece tutti quelli collegati alle azioni o sollecitazioni di following. Questo significa che tutte le richieste di following sono sgradite al RT specialmente durate i #followfriday:
    • #newfollower
    • #follow4follow
    • #followyouback
    • #instantfollow

In conclusione i ricercatori affermano di aver scoperto che non sono solo le variabili legate agli utenti a rendere un tweet RT ma anche e soprattutto quelle legate alle caratteristiche dei tweet. Dunque questo pare confermare a chi scrive che l’uso di twitter appassionato e consapevole, abbandonato il desiderio spasmodico di veder crescere e lievitare il numero dei follower porta ad una crescita di “notorietà” e “interazioni” intese come l’insieme di [RT+follower+liste+interazioni+menzioni] che nel complesso aiutano a far crescere non tanto indici quantitativi legati al nostro nome utente quanto l’interscambio, le relazioni, il capitale umano, l’apprendimento e i benefici, perché no, anche professionali come afferma Mark Schaefer nel suo delizioso e utilissimo “The Tao of Twitter”.

Il modello

La prima parte della ricerca ha coinvolto esseri umani attraverso due esperimenti: nel primo ai soggetti è stato sottoposto un tweet ed è stato chiesto di fare una scelta, nel seconda ai soggetti sono state sottoposte anche tutte le variabili sociali del modello. L’obiettivo di questa parte della ricerca è stato di chiarire l’effettivo comportamento umano prima di tentare di simularlo.

La seconda parte dell’esperimento invece è stata mirata a simulare il comportamento attraverso un modello algoritmico. A questo fine il dataset è stato suddiviso in due parti 90-10: il primo 90% dei dati è servito per “educare” il modello, il restante 10% è servito di controllo per la simulazione.

Compiute entrambe le operazioni il modello è pronto ad essere sottoposto al test definitivo: dato un tweet verificare la scelta del modello comparandola con quella umana. Il modello si è rivelato efficace con una approssimazione dell’82,7% e una significatività di 0,05 (p).

Le variabili e il campione

Per testare il modello sono stati presi in considerazione 2 insiemi di variabili:

  • variabili sociali – sono state testate le variabili collegate ai soggetto emittente il tweet: il numero di followers, quello degli amici, il numero di volte in cui l’utente è stato citato (@) nei tweet, il numero di tweets inseriti nei preferiti, il numero di liste in cui è stato inserito, se la lingua sia inglese e e si tratti di un utente verificato nel caso di celebrità.
  • variabili dei tweet – sono le variabili relative ai tweets oggetto dello studio: il numero di hashtag (#), il numero di menzioni (@), la presenza di URL, la presenza di parole trend, la lunghezza dei tweet, se si tratti di una novità, se si tratti di una risposta e quali parole siano state usate.

Le variabili sono state scelte sulla base delle evidenze della letteratura precedente. In particolare è interessante citare un lavoro del 2010 di Suh et. al. in cui si evidenziano con chiarezza che le variabili  che presentano una maggiore correlazione con i retweet sono principalmente il numero di amici e di followers da un lato e la presenza di URL e di menzioni dall’altra.

I ricercatori per parte loro affermano di aver rilevato una forte occorrenza di retweet di utenti verficati (91%) e una bassissima per gli altri (6%). Questo primo dato sembra dimostrare che le celebrità raccolgano comunque la maggiore propensione al RT rispetto agli altri. Forse anche grazie al fatto che proprio le celebrità sono tra gli utenti Twitter con il più elevato numero di follower (ma non sempre di following).

Il dataset su cui i ricercatori hanno lavorato è stato enorme: uno stream di 21 milioni di tweet nel mese di ottobre 2010. Ai colleghi statisti più esperti non potrà sfuggire il problema qui della concentrazione temporale del campione. In ogni caso si tratta di un campione davvero ampio, cosa che dovrebbe poter ridurre l’errore. Per quanto riguarda il campione gli autori fanno un inciso: Twitter fornisce campioni limitati ai ricercatori. Ovvero non fornisce mai stream completi. Questo significa che parte dei tweet (RT o no) possono essere stati oscurati.

Risorse

Saša Petrovic, Miles Osborne, Victor Lavrenko, RT to Win! Predicting Message Propagation in Twitter, Association for the Advancement of Artificial Intelligence, 2011.

Suh, B.; Hong, L.; Pirolli, P.; and Chi, E. H. 2010. Want to be retweeted? Large scale analytics on factors impact- ing retweet in twitter network. In Social Computing (So- cialCom), 2010 IEEE Second International Conference on, 177–184. IEEE.

Zaman, T. R.; Herbrich, R.; van Gael, J.; and Stern, D. 2010. Predicting information spreading in twitter. In Workshop on Computational Social Science and the Wisdom of Crowds , NIPS.