SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
Adversarial IR
e Social Spam
                                                  `
                                        UNIVERSITA DEGLI STUDI DI PADOVA
   Nesello
   Lorenzo                                  Facolt` di Scienze MM.FF.NN
                                                  a
                                             Corso di laurea in informatica
Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio                              Adversarial IR e Social Spam
Facebook
Attack

Riferimenti
                                                        Nesello Lorenzo

                                                       Universit` di Padova
                                                                a


                                                           02-12-2009


 Nesello Lorenzo   (Universit` di Padova)
                             a                 Adversarial IR e Social Spam   02-12-2009   1 / 32
Indice della presentazione

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    1   Adversarial Information Retrieval
Adversarial
Information
Retrieval
                    2   Social Spam
Social Spam

Social Spam -
Casi di studio      3   Social Spam - Casi di studio
Facebook
Attack

Riferimenti         4   Facebook Attack

                    5   Riferimenti



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   2 / 32
Adversarial Information Retrieval - Introduzione

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
                    L’Adversarial Information Retrieval ` un ambito di studio
                                                         e
Retrieval           nell’Information Retrieval.
Social Spam
                    Tale disciplina opera nell’ambito della raccolta, indicizzazione,
Social Spam -
Casi di studio      filtraggio e ranking di informazioni da collezioni che possono
Facebook            essere state maliziosamente manipolate.
Attack
                    L’Adversarial IR include lo studio di metodi per scovare, isolare
Riferimenti
                    e sconfiggere queste manipolazioni.




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   3 / 32
Adversarial Information Retrieval - Topics I

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Topics relativi al Web spam (spamdexing):
Adversarial
Information
Retrieval                  Link spam
Social Spam                Keyword spamming
Social Spam -
Casi di studio             Cloaking
Facebook
Attack
                           Malicious tagging
Riferimenti                Spam relativo ai blogs, includendo comment spam, splogs
                           e ping spam




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   4 / 32
Adversarial Information Retrieval - Topics II

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Altri topics:
Adversarial
Information                Click fraud detection
Retrieval

Social Spam
                           Reverse engineering di un search engine’s ranking
Social Spam -
                           algorithm
Casi di studio
                           Web content filtering
Facebook
Attack
                           Advertisement blocking
Riferimenti
                           Stealth crawling
                           Malicious tagging o voting in social networks




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   5 / 32
Adversarial Information Retrieval - AIRWeb

Adversarial IR
e Social Spam
                    AIRWeb ` un workshop internazionale che si occupa di
                             e
   Nesello
   Lorenzo          discutere l’avanzamento dello stato dell’arte nell’ambito
                    dell’Adversarial Information Retrieval nel Web. Alcuni
Adversarial
Information         argomenti di interesse sono:
Retrieval

Social Spam                search engine spam e ottimizzazioni
Social Spam -
Casi di studio
                           link-bombing (a.k.a. Google-bombing)
Facebook                   comment spam, referrer spam
Attack

Riferimenti
                           blog spam (splogs)
                           malicious tagging
                           reverse engineering degli algoritmi di ranking
                    Questa presentazione tratter` principalmente l’ambito
                                                 a
                    trasversale del Social Spam.

 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam    02-12-2009   6 / 32
Social Spam - Introduzione

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information         Con il termine Social Spam si identificano alcune problematiche
Retrieval

Social Spam
                    presenti nel web attualmente, come ad esempio lo spam via
Social Spam -
                    email (che opprime la maggior parte degli utenti di internet), lo
Casi di studio      spam fatto con i video di risposta, lo spam attraverso i Social
Facebook
Attack
                    Network (Facebook, MySpace ad esempio) e lo spam nei Blog
Riferimenti         (detto Splog).




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   7 / 32
Social Spam - Definizione di Spam

Adversarial IR
e Social Spam

   Nesello
                    Definizione I : “Internet spam is one or more unsolicited
   Lorenzo          messages, sent or posted as part of a larger collection of
Adversarial         messages, all having substantially identical content.”
Information
Retrieval           [monkeys.com]
Social Spam         Definizione II : “The term spam refers broadly to unsolicited
Social Spam -       bulk e-mail (or junk’ e-mail), which can be either commercial
Casi di studio
                    (such as an advertisement) or noncommercial (such as a joke
Facebook
Attack              or chain letter).” [Supreme Court of the State of Washington]
Riferimenti         Curiosit` : “Spam ` il titolo di un popolare sketch del gruppo
                              a         e
                    comico inglese dei Monty Python, che prende il nome da una
                    marca di carne in scatola chiamata Spam. Lo sketch dar` a sua
                                                                              a
                    volta il nome al fenomeno della pubblicit` indesiderata ricevuta
                                                              a
                    tramite e-mail.”

 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   8 / 32
Social Spam - Email Spam

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval           Lo spam via email ` uno degli argomenti trattati da questa
                                         e
Social Spam         presentazione. L’utilizzo che ne viene attualmente fatto quello
Social Spam -
Casi di studio
                    di attirare gli utenti verso siti poco affidabili per poterli
Facebook
                    attaccare oppure per semplice guadagno tramite le inserzioni
Attack              pubblicitarie presenti nella pagina.
Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   9 / 32
Social Spam - Percentuale di Email Spam

Adversarial IR
e Social Spam

   Nesello
                    1. Stati Uniti 15,6%
   Lorenzo          2. Brasile 11,1%
Adversarial         3. Turchia 5,2%
Information
Retrieval           4. India 5,0%
Social Spam         5. Corea del Sud 4,7%
Social Spam -       6. Polonia 4,2%
Casi di studio
                    7. Cina (inclusa Hong Kong) 4,1%
Facebook
Attack              8. Spagna 3,4%
Riferimenti         9. Russia 3,2%
                    10.Italia 2,8%
                    11.Argentina 2,5%
                    12.Vietnam 2,3%
                    Altri 35,9%

 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   10 / 32
Social Spam - Definizioni e Motivazioni

Adversarial IR
e Social Spam

   Nesello
   Lorenzo          Quali sono le motivazioni del Social Spam?
Adversarial                Motivi finanziari
Information
Retrieval                  Siti di phising
Social Spam
                           Installazione di malware
Social Spam -
Casi di studio
                    Per quanto riguarda i motivi finanziari (principali motivi di
Facebook
Attack              spam) uno spammer probabilmente ricava soldi quando un
Riferimenti         utente visita un sito X; il social spam ` una semplice via per
                                                            e
                    attirare utenti.
                    Alcuni metodi di guadagno nella rete sono i famosi Google
                    AdSense e Yahoo APT.



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   11 / 32
Social Spam - Definizioni e Motivazioni

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval
                    Uno dei principali metodi per attirare utenti verso un sito `
                                                                                e
Social Spam
                    quello del contenuto originale. Esistono vari metodi per creare
Social Spam -       contenuto originale
Casi di studio

Facebook
                           Generazione automatica di testo
Attack
                           Copia di contenuti di altre pagine autorevoli
Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   12 / 32
Social Spam - Definizioni e Motivazioni

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




                         Generazione dinamica di un sito di un fake Gossip Search
                                                 Engine
 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   13 / 32
Social Spam - Features

Adversarial IR
e Social Spam

   Nesello
   Lorenzo                 TagSpam: rilevazione della presenza di falsi tag nei post
Adversarial                TagBlur: misura della similarit` fra tag
                                                          a
Information
Retrieval                  DomFp: probabilit` che una risorsa r sia spam basandosi
                                                a
Social Spam                sulla struttura del documento
Social Spam -
Casi di studio             NumAds: numero di volte in cui compare un ad server
Facebook                   all’interno di una pagina
Attack

Riferimenti
                           Plagiarism: ricerca di contenuto di una pagina autorevole
                           con un motore di ricerca al fine di trovare plagi
                           ValidLinks: ricerca di quanti link validi sono riferibili a un
                           profilo



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   14 / 32
Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo          Lo spam via posta elettronica ` sicuramente, come gi` indicato
                                                      e                       a
Adversarial
                    nelle slide precedenti, un problema aperto nella navigazione
Information         quotidiana ed ` anche un ambito di ricerca da parte
                                     e
Retrieval

Social Spam
                    dell’Adversarial Information Retrieval.
Social Spam -
                    La formalizzazione del problema ` la seguente:
                                                        e
Casi di studio      A = {a1 , ..., an } insieme di n email account
Facebook
Attack
                    S ⊂ A insieme dei mittenti
Riferimenti         R ⊂ A insieme dei destinatari
                    yi = 1 se ai ` un mittente legittimo, −1 altrimenti
                                   e
                    I classificatori cercano di assegnare i valori di yi nella maniera
                    pi` corretta possibile.
                      u



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   15 / 32
Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   16 / 32
Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Uno dei metodi per riconoscere le email di spam ` certamente
                                                                        e
                    quello di controllare mail in entrata e mail in uscita per ogni
Adversarial
Information         account ai . Per fare questo basta tenere in considerazione
Retrieval
                    alcune caratteristiche:
Social Spam

Social Spam -              uno spammer invia tante email e ne riceve poche
Casi di studio

Facebook
                           le mail di risposta sono meno frequenti verso uno spammer
Attack
                           uno spammer avr` un vicinato molto ampio gi` al primo
                                          a                           a
Riferimenti
                           livello
                           gli spammer nel vicinato di un account ai non sono in
                           grado di esibire una relazione di amicizia



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   17 / 32
Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Per risolvere il problema di classificazione di un mittente
Adversarial
Information         sconosciuto si pu` utilizzare l’algoritmo di machine learning
                                       o
Retrieval
                    k-NN. Questo algoritmo assume che mittenti che condividono
Social Spam
                    features simili appartengano alla stessa classe. In questo modo
Social Spam -
Casi di studio      il punteggio ` assegnato come la media delle label (classi)
                                 e
Facebook            assegnate ai k vicini. Il segno del punteggio pu` essere usato
                                                                     o
Attack

Riferimenti
                    per classificare un mittente e la magnitudine riflette la
                    confidenza. Alternativamente un punteggio alto pu` classificare
                                                                         o
                    un mittente come legittimo.




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   18 / 32
Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   19 / 32
Social Spam - Facebook attack

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Un esempio di attacco via email pu` essere attraverso i Social
                                                         o
Adversarial         Network. Le prossime slide parleranno delle vulnerabilit` verso
                                                                             a
Information
Retrieval           gli attacchi email partendo dalla informazioni presenti negli
Social Spam         account di Facebook. Lo studio che verr` proposto fa
                                                               a
Social Spam -
Casi di studio
                    riferimento al network “University of Michigan” dove gli utenti
Facebook
                    per poter essere accettati devono avere un indirizzo email con
Attack              dominio umich.edu. La scelta di Facebook rispetto ad altri
Riferimenti
                    Social Network (MySpace e Linkedln ad esempio) deriva dal
                    fatto che uno studio ha dimostrato che in Facebook sono
                    presenti pi` dati personali rispetto agli altri siti.
                               u




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   20 / 32
Social Spam - Facebook attack

Adversarial IR
e Social Spam

   Nesello
   Lorenzo          Prima di analizzare tre diversi attacchi realizzabili partendo da
                    dati presenti in Facebook bisogna fissare alcuni concetti come :
Adversarial
Information
Retrieval                  Open Profile: profilo le cui informazioni possono essere
Social Spam                accedute da chiunque nella rete
Social Spam -
Casi di studio             Closed Profile: profilo le cui informazioni possono essere
Facebook                   accedute solo da alcune persone (amici)
Attack

Riferimenti         Le informazioni su cui si baseranno gli attacchi sono quelle
                    condivise su Facebook come informazioni di contatto,
                    residenza, istruzione, sesso, interesse, nome degli amici,
                    compleanno, wall post e news feeds.



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   21 / 32
Social Spam - Facebook attack

Adversarial IR
e Social Spam

   Nesello          Verranno analizzati tre tipi di attacco:
   Lorenzo
                           Relationship-based attacks: questo attacco utilizza
Adversarial
Information                solamente le informazioni relative al rapporto di amicizia
Retrieval
                           (friend-to-friend relationship information)
Social Spam

Social Spam -              Unshared-attribute attacks: questo attacco utilizza le
Casi di studio
                           informazioni relative al rapporto di amicizia insieme a un
Facebook
Attack                     attributo di una delle due parti, come ad esempio la data
Riferimenti                di compleanno di un utente
                           Shared-attribute attacks: questo attacco utilizza le
                           informazioni relative al rapporto di amicizia insieme a un
                           attributo visibile da entrambe le parti



 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   22 / 32
Social Spam - Relationship-based attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   23 / 32
Social Spam - Relationship-based attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval           Per questo tipo di attacco basta conoscere il nome utente di un
Social Spam         amico della vittima e ovviamente la mail della vittima. Infine
Social Spam -
Casi di studio
                    basta costruire una email sullo stile delle email di notifica di
Facebook
                    Facebook invitando cos` l’utente attaccato a cliccare su un link
                                            ı
Attack
                    che rimander` a un sito controllato dall’attaccante.
                                 a
Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   24 / 32
Social Spam - Unshared-attribute attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   25 / 32
Social Spam - Unshared-attribute attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo
                    Per effettuare questo tipo di attacco bisogna conoscere la data
Adversarial         di compleanno dell’utente che si vuole attaccare. In caso di
Information
Retrieval           profilo aperto questa solitamente ` facilmente reperibile. Esiste
                                                         e
Social Spam         una funzionalit` in Facebook che permette di visualizzare le
                                    a
Social Spam -
Casi di studio
                    date di compleanno all’interno di una rete. L’attacco consiste
Facebook
                    nell’inviare una e-card falsa da parte di un amico convincedo
Attack              cos` l’attaccato a cliccare sui link presenti nella email. Un’altro
                        ı
Riferimenti
                    tipo di attacco detto birthday invitation attack che consiste
                    nell’inviare una email agli amici con un finto invito a una festa
                    di compleanno con il risultato di farli cliccare su link malevoli.




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   26 / 32
Social Spam - Shared-attribute attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   27 / 32
Social Spam - Shared-attribute attacks

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
                    Questo tipo di attacco si basa su di un falso sito di fotogallery.
Retrieval           Si finge che un amico abbia condiviso online un album di foto e
Social Spam
                    si invia una email alla vittima. L’argomento dell’album pu` o
Social Spam -
Casi di studio      essere la partecipazione a un evento, facilmente reperibile dai
Facebook            post nel wall. La falsa veridicit` viene data dal fatto che
                                                     a
Attack
                    Facebook permette di pubblicare album di foto linkandoli a
Riferimenti
                    degli eventi.




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   28 / 32
Social Spam - Facebook attack

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   29 / 32
Social Spam - Facebook attack

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial
Information
Retrieval
                    Un risultato interessante ` dato dal fatto che una parte
                                              e
Social Spam
                    significante degli utenti con il profilo chiuso vulnerabile agli
Social Spam -
Casi di studio      attacchi. Questo ` dovuto dal fatto che almeno un amico ha il
                                      e
Facebook            profilo aperto.
Attack

Riferimenti




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   30 / 32
Social Spam - Defense options

Adversarial IR
e Social Spam

   Nesello
                    Esistono alcuni metodi che possono far diminuire la probabilit`
                                                                                  a
   Lorenzo          di un attacco:
Adversarial                profilo accessibile solamente dagli amici (attaccabile
Information
Retrieval                  tramite birthday-invitation)
Social Spam
                           rimuovere il cognome (decade l’usabilit`)
                                                                  a
Social Spam -
Casi di studio             rendere immagine le informazioni personali (da realizzare
Facebook
Attack
                           da parte del creatore del social network e attaccabile
Riferimenti
                           tramite un software OCR)
                           rendere difficile la creazione di fake account (soluzione
                           molto difficile da applicare)
                    Tutte queste idee servono solamente per ridurre la probabilit`
                                                                                 a
                    di attacchi ma non li evitano totalmente.

 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   31 / 32
Riferimenti

Adversarial IR
e Social Spam

   Nesello
   Lorenzo


Adversarial         http://en.wikipedia.org/wiki/Adversarial_
Information
Retrieval
                    information_retrieval
Social Spam         http://airweb.cse.lehigh.edu/
Social Spam -       Social Spam Detection [Markines, Cattuto, Menczer 2009]
Casi di studio
                    A Learning Approach to Spam Detection based on Social
Facebook
Attack              Networks [Lam, Yeung 2007]
Riferimenti         Social Networks and Context-Aware Spam [Brown, Ihbe,
                    Prakash, Borders 2008]




 Nesello Lorenzo   (Universit` di Padova)
                             a              Adversarial IR e Social Spam   02-12-2009   32 / 32

Más contenido relacionado

Destacado

OpenOffice: cos'è, chi c'è dietro e con quale modello di business
OpenOffice: cos'è, chi c'è dietro e con quale modello di businessOpenOffice: cos'è, chi c'è dietro e con quale modello di business
OpenOffice: cos'è, chi c'è dietro e con quale modello di businessmadero
 
Protectia Mediului Aerian (BOREA)
Protectia Mediului Aerian (BOREA)Protectia Mediului Aerian (BOREA)
Protectia Mediului Aerian (BOREA)Cojocari Boris
 
Mac Plan 2006
Mac Plan 2006Mac Plan 2006
Mac Plan 2006darciea
 
DWR IRWM Guidelines
DWR IRWM GuidelinesDWR IRWM Guidelines
DWR IRWM Guidelinesdarciea
 
6月4日報告会スライド アンケート結果
6月4日報告会スライド アンケート結果6月4日報告会スライド アンケート結果
6月4日報告会スライド アンケート結果Tsutomu Tamakawa
 
Focus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiFocus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiRoberto Galoppini
 

Destacado (17)

Balikpapan
BalikpapanBalikpapan
Balikpapan
 
Creative commons
Creative commonsCreative commons
Creative commons
 
Corso ordine ingegneri
Corso ordine ingegneriCorso ordine ingegneri
Corso ordine ingegneri
 
OpenOffice: cos'è, chi c'è dietro e con quale modello di business
OpenOffice: cos'è, chi c'è dietro e con quale modello di businessOpenOffice: cos'è, chi c'è dietro e con quale modello di business
OpenOffice: cos'è, chi c'è dietro e con quale modello di business
 
Licenze floss
Licenze flossLicenze floss
Licenze floss
 
Protectia Mediului Aerian (BOREA)
Protectia Mediului Aerian (BOREA)Protectia Mediului Aerian (BOREA)
Protectia Mediului Aerian (BOREA)
 
Career choice workshop
Career choice workshopCareer choice workshop
Career choice workshop
 
Career choice workshop
Career choice workshopCareer choice workshop
Career choice workshop
 
HB website intro
HB website introHB website intro
HB website intro
 
Mac Plan 2006
Mac Plan 2006Mac Plan 2006
Mac Plan 2006
 
DWR IRWM Guidelines
DWR IRWM GuidelinesDWR IRWM Guidelines
DWR IRWM Guidelines
 
Stakewatch
StakewatchStakewatch
Stakewatch
 
resumen matlab
resumen matlabresumen matlab
resumen matlab
 
Training Labs (www.cmcons.com)
Training Labs (www.cmcons.com)Training Labs (www.cmcons.com)
Training Labs (www.cmcons.com)
 
Goya
GoyaGoya
Goya
 
6月4日報告会スライド アンケート結果
6月4日報告会スライド アンケート結果6月4日報告会スライド アンケート結果
6月4日報告会スライド アンケート結果
 
Focus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiFocus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea Pescetti
 

Adversarial Information Retrieval

  • 1. Adversarial IR e Social Spam ` UNIVERSITA DEGLI STUDI DI PADOVA Nesello Lorenzo Facolt` di Scienze MM.FF.NN a Corso di laurea in informatica Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Adversarial IR e Social Spam Facebook Attack Riferimenti Nesello Lorenzo Universit` di Padova a 02-12-2009 Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 1 / 32
  • 2. Indice della presentazione Adversarial IR e Social Spam Nesello Lorenzo 1 Adversarial Information Retrieval Adversarial Information Retrieval 2 Social Spam Social Spam Social Spam - Casi di studio 3 Social Spam - Casi di studio Facebook Attack Riferimenti 4 Facebook Attack 5 Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 2 / 32
  • 3. Adversarial Information Retrieval - Introduzione Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information L’Adversarial Information Retrieval ` un ambito di studio e Retrieval nell’Information Retrieval. Social Spam Tale disciplina opera nell’ambito della raccolta, indicizzazione, Social Spam - Casi di studio filtraggio e ranking di informazioni da collezioni che possono Facebook essere state maliziosamente manipolate. Attack L’Adversarial IR include lo studio di metodi per scovare, isolare Riferimenti e sconfiggere queste manipolazioni. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 3 / 32
  • 4. Adversarial Information Retrieval - Topics I Adversarial IR e Social Spam Nesello Lorenzo Topics relativi al Web spam (spamdexing): Adversarial Information Retrieval Link spam Social Spam Keyword spamming Social Spam - Casi di studio Cloaking Facebook Attack Malicious tagging Riferimenti Spam relativo ai blogs, includendo comment spam, splogs e ping spam Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 4 / 32
  • 5. Adversarial Information Retrieval - Topics II Adversarial IR e Social Spam Nesello Lorenzo Altri topics: Adversarial Information Click fraud detection Retrieval Social Spam Reverse engineering di un search engine’s ranking Social Spam - algorithm Casi di studio Web content filtering Facebook Attack Advertisement blocking Riferimenti Stealth crawling Malicious tagging o voting in social networks Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 5 / 32
  • 6. Adversarial Information Retrieval - AIRWeb Adversarial IR e Social Spam AIRWeb ` un workshop internazionale che si occupa di e Nesello Lorenzo discutere l’avanzamento dello stato dell’arte nell’ambito dell’Adversarial Information Retrieval nel Web. Alcuni Adversarial Information argomenti di interesse sono: Retrieval Social Spam search engine spam e ottimizzazioni Social Spam - Casi di studio link-bombing (a.k.a. Google-bombing) Facebook comment spam, referrer spam Attack Riferimenti blog spam (splogs) malicious tagging reverse engineering degli algoritmi di ranking Questa presentazione tratter` principalmente l’ambito a trasversale del Social Spam. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 6 / 32
  • 7. Social Spam - Introduzione Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Con il termine Social Spam si identificano alcune problematiche Retrieval Social Spam presenti nel web attualmente, come ad esempio lo spam via Social Spam - email (che opprime la maggior parte degli utenti di internet), lo Casi di studio spam fatto con i video di risposta, lo spam attraverso i Social Facebook Attack Network (Facebook, MySpace ad esempio) e lo spam nei Blog Riferimenti (detto Splog). Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 7 / 32
  • 8. Social Spam - Definizione di Spam Adversarial IR e Social Spam Nesello Definizione I : “Internet spam is one or more unsolicited Lorenzo messages, sent or posted as part of a larger collection of Adversarial messages, all having substantially identical content.” Information Retrieval [monkeys.com] Social Spam Definizione II : “The term spam refers broadly to unsolicited Social Spam - bulk e-mail (or junk’ e-mail), which can be either commercial Casi di studio (such as an advertisement) or noncommercial (such as a joke Facebook Attack or chain letter).” [Supreme Court of the State of Washington] Riferimenti Curiosit` : “Spam ` il titolo di un popolare sketch del gruppo a e comico inglese dei Monty Python, che prende il nome da una marca di carne in scatola chiamata Spam. Lo sketch dar` a sua a volta il nome al fenomeno della pubblicit` indesiderata ricevuta a tramite e-mail.” Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 8 / 32
  • 9. Social Spam - Email Spam Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Lo spam via email ` uno degli argomenti trattati da questa e Social Spam presentazione. L’utilizzo che ne viene attualmente fatto quello Social Spam - Casi di studio di attirare gli utenti verso siti poco affidabili per poterli Facebook attaccare oppure per semplice guadagno tramite le inserzioni Attack pubblicitarie presenti nella pagina. Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 9 / 32
  • 10. Social Spam - Percentuale di Email Spam Adversarial IR e Social Spam Nesello 1. Stati Uniti 15,6% Lorenzo 2. Brasile 11,1% Adversarial 3. Turchia 5,2% Information Retrieval 4. India 5,0% Social Spam 5. Corea del Sud 4,7% Social Spam - 6. Polonia 4,2% Casi di studio 7. Cina (inclusa Hong Kong) 4,1% Facebook Attack 8. Spagna 3,4% Riferimenti 9. Russia 3,2% 10.Italia 2,8% 11.Argentina 2,5% 12.Vietnam 2,3% Altri 35,9% Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 10 / 32
  • 11. Social Spam - Definizioni e Motivazioni Adversarial IR e Social Spam Nesello Lorenzo Quali sono le motivazioni del Social Spam? Adversarial Motivi finanziari Information Retrieval Siti di phising Social Spam Installazione di malware Social Spam - Casi di studio Per quanto riguarda i motivi finanziari (principali motivi di Facebook Attack spam) uno spammer probabilmente ricava soldi quando un Riferimenti utente visita un sito X; il social spam ` una semplice via per e attirare utenti. Alcuni metodi di guadagno nella rete sono i famosi Google AdSense e Yahoo APT. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 11 / 32
  • 12. Social Spam - Definizioni e Motivazioni Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Uno dei principali metodi per attirare utenti verso un sito ` e Social Spam quello del contenuto originale. Esistono vari metodi per creare Social Spam - contenuto originale Casi di studio Facebook Generazione automatica di testo Attack Copia di contenuti di altre pagine autorevoli Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 12 / 32
  • 13. Social Spam - Definizioni e Motivazioni Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Generazione dinamica di un sito di un fake Gossip Search Engine Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 13 / 32
  • 14. Social Spam - Features Adversarial IR e Social Spam Nesello Lorenzo TagSpam: rilevazione della presenza di falsi tag nei post Adversarial TagBlur: misura della similarit` fra tag a Information Retrieval DomFp: probabilit` che una risorsa r sia spam basandosi a Social Spam sulla struttura del documento Social Spam - Casi di studio NumAds: numero di volte in cui compare un ad server Facebook all’interno di una pagina Attack Riferimenti Plagiarism: ricerca di contenuto di una pagina autorevole con un motore di ricerca al fine di trovare plagi ValidLinks: ricerca di quanti link validi sono riferibili a un profilo Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 14 / 32
  • 15. Social Spam - Spam detection on Social Networks Adversarial IR e Social Spam Nesello Lorenzo Lo spam via posta elettronica ` sicuramente, come gi` indicato e a Adversarial nelle slide precedenti, un problema aperto nella navigazione Information quotidiana ed ` anche un ambito di ricerca da parte e Retrieval Social Spam dell’Adversarial Information Retrieval. Social Spam - La formalizzazione del problema ` la seguente: e Casi di studio A = {a1 , ..., an } insieme di n email account Facebook Attack S ⊂ A insieme dei mittenti Riferimenti R ⊂ A insieme dei destinatari yi = 1 se ai ` un mittente legittimo, −1 altrimenti e I classificatori cercano di assegnare i valori di yi nella maniera pi` corretta possibile. u Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 15 / 32
  • 16. Social Spam - Spam detection on Social Networks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 16 / 32
  • 17. Social Spam - Spam detection on Social Networks Adversarial IR e Social Spam Nesello Lorenzo Uno dei metodi per riconoscere le email di spam ` certamente e quello di controllare mail in entrata e mail in uscita per ogni Adversarial Information account ai . Per fare questo basta tenere in considerazione Retrieval alcune caratteristiche: Social Spam Social Spam - uno spammer invia tante email e ne riceve poche Casi di studio Facebook le mail di risposta sono meno frequenti verso uno spammer Attack uno spammer avr` un vicinato molto ampio gi` al primo a a Riferimenti livello gli spammer nel vicinato di un account ai non sono in grado di esibire una relazione di amicizia Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 17 / 32
  • 18. Social Spam - Spam detection on Social Networks Adversarial IR e Social Spam Nesello Lorenzo Per risolvere il problema di classificazione di un mittente Adversarial Information sconosciuto si pu` utilizzare l’algoritmo di machine learning o Retrieval k-NN. Questo algoritmo assume che mittenti che condividono Social Spam features simili appartengano alla stessa classe. In questo modo Social Spam - Casi di studio il punteggio ` assegnato come la media delle label (classi) e Facebook assegnate ai k vicini. Il segno del punteggio pu` essere usato o Attack Riferimenti per classificare un mittente e la magnitudine riflette la confidenza. Alternativamente un punteggio alto pu` classificare o un mittente come legittimo. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 18 / 32
  • 19. Social Spam - Spam detection on Social Networks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 19 / 32
  • 20. Social Spam - Facebook attack Adversarial IR e Social Spam Nesello Lorenzo Un esempio di attacco via email pu` essere attraverso i Social o Adversarial Network. Le prossime slide parleranno delle vulnerabilit` verso a Information Retrieval gli attacchi email partendo dalla informazioni presenti negli Social Spam account di Facebook. Lo studio che verr` proposto fa a Social Spam - Casi di studio riferimento al network “University of Michigan” dove gli utenti Facebook per poter essere accettati devono avere un indirizzo email con Attack dominio umich.edu. La scelta di Facebook rispetto ad altri Riferimenti Social Network (MySpace e Linkedln ad esempio) deriva dal fatto che uno studio ha dimostrato che in Facebook sono presenti pi` dati personali rispetto agli altri siti. u Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 20 / 32
  • 21. Social Spam - Facebook attack Adversarial IR e Social Spam Nesello Lorenzo Prima di analizzare tre diversi attacchi realizzabili partendo da dati presenti in Facebook bisogna fissare alcuni concetti come : Adversarial Information Retrieval Open Profile: profilo le cui informazioni possono essere Social Spam accedute da chiunque nella rete Social Spam - Casi di studio Closed Profile: profilo le cui informazioni possono essere Facebook accedute solo da alcune persone (amici) Attack Riferimenti Le informazioni su cui si baseranno gli attacchi sono quelle condivise su Facebook come informazioni di contatto, residenza, istruzione, sesso, interesse, nome degli amici, compleanno, wall post e news feeds. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 21 / 32
  • 22. Social Spam - Facebook attack Adversarial IR e Social Spam Nesello Verranno analizzati tre tipi di attacco: Lorenzo Relationship-based attacks: questo attacco utilizza Adversarial Information solamente le informazioni relative al rapporto di amicizia Retrieval (friend-to-friend relationship information) Social Spam Social Spam - Unshared-attribute attacks: questo attacco utilizza le Casi di studio informazioni relative al rapporto di amicizia insieme a un Facebook Attack attributo di una delle due parti, come ad esempio la data Riferimenti di compleanno di un utente Shared-attribute attacks: questo attacco utilizza le informazioni relative al rapporto di amicizia insieme a un attributo visibile da entrambe le parti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 22 / 32
  • 23. Social Spam - Relationship-based attacks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 23 / 32
  • 24. Social Spam - Relationship-based attacks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Per questo tipo di attacco basta conoscere il nome utente di un Social Spam amico della vittima e ovviamente la mail della vittima. Infine Social Spam - Casi di studio basta costruire una email sullo stile delle email di notifica di Facebook Facebook invitando cos` l’utente attaccato a cliccare su un link ı Attack che rimander` a un sito controllato dall’attaccante. a Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 24 / 32
  • 25. Social Spam - Unshared-attribute attacks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 25 / 32
  • 26. Social Spam - Unshared-attribute attacks Adversarial IR e Social Spam Nesello Lorenzo Per effettuare questo tipo di attacco bisogna conoscere la data Adversarial di compleanno dell’utente che si vuole attaccare. In caso di Information Retrieval profilo aperto questa solitamente ` facilmente reperibile. Esiste e Social Spam una funzionalit` in Facebook che permette di visualizzare le a Social Spam - Casi di studio date di compleanno all’interno di una rete. L’attacco consiste Facebook nell’inviare una e-card falsa da parte di un amico convincedo Attack cos` l’attaccato a cliccare sui link presenti nella email. Un’altro ı Riferimenti tipo di attacco detto birthday invitation attack che consiste nell’inviare una email agli amici con un finto invito a una festa di compleanno con il risultato di farli cliccare su link malevoli. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 26 / 32
  • 27. Social Spam - Shared-attribute attacks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 27 / 32
  • 28. Social Spam - Shared-attribute attacks Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Questo tipo di attacco si basa su di un falso sito di fotogallery. Retrieval Si finge che un amico abbia condiviso online un album di foto e Social Spam si invia una email alla vittima. L’argomento dell’album pu` o Social Spam - Casi di studio essere la partecipazione a un evento, facilmente reperibile dai Facebook post nel wall. La falsa veridicit` viene data dal fatto che a Attack Facebook permette di pubblicare album di foto linkandoli a Riferimenti degli eventi. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 28 / 32
  • 29. Social Spam - Facebook attack Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Social Spam Social Spam - Casi di studio Facebook Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 29 / 32
  • 30. Social Spam - Facebook attack Adversarial IR e Social Spam Nesello Lorenzo Adversarial Information Retrieval Un risultato interessante ` dato dal fatto che una parte e Social Spam significante degli utenti con il profilo chiuso vulnerabile agli Social Spam - Casi di studio attacchi. Questo ` dovuto dal fatto che almeno un amico ha il e Facebook profilo aperto. Attack Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 30 / 32
  • 31. Social Spam - Defense options Adversarial IR e Social Spam Nesello Esistono alcuni metodi che possono far diminuire la probabilit` a Lorenzo di un attacco: Adversarial profilo accessibile solamente dagli amici (attaccabile Information Retrieval tramite birthday-invitation) Social Spam rimuovere il cognome (decade l’usabilit`) a Social Spam - Casi di studio rendere immagine le informazioni personali (da realizzare Facebook Attack da parte del creatore del social network e attaccabile Riferimenti tramite un software OCR) rendere difficile la creazione di fake account (soluzione molto difficile da applicare) Tutte queste idee servono solamente per ridurre la probabilit` a di attacchi ma non li evitano totalmente. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 31 / 32
  • 32. Riferimenti Adversarial IR e Social Spam Nesello Lorenzo Adversarial http://en.wikipedia.org/wiki/Adversarial_ Information Retrieval information_retrieval Social Spam http://airweb.cse.lehigh.edu/ Social Spam - Social Spam Detection [Markines, Cattuto, Menczer 2009] Casi di studio A Learning Approach to Spam Detection based on Social Facebook Attack Networks [Lam, Yeung 2007] Riferimenti Social Networks and Context-Aware Spam [Brown, Ihbe, Prakash, Borders 2008] Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 32 / 32