SlideShare una empresa de Scribd logo
1 de 113
Descargar para leer sin conexión
Alessia Pierfederici – Mariagiovanna Scarale




   STRUMENTI STATISTICI PER
L’ANALISI DELLA DISTRIBUZIONE
     DEI FATTI LINGUISTICI



   Seminario di Linguistica italiana II (prof. Mirko Tavoni),
                         a.a. 2012/2013
SOMMARIO

Preliminari;
Nozioni   di Statistica;
Un esperimento di statistica lessicale:
 le opere di Alessandro Baricco;
Analisi di un fenomeno nello scritto e
 nel parlato;



                Alessia Pierfederici e Mariagiovanna Scarale,
                Linguistica Italiana II a.a. 2012/2013          2
1. PRELIMINARI




   Alessia Pierfederici e Mariagiovanna Scarale,
   Linguistica Italiana II a.a. 2012/2013          3
1. PRELIMINARI




                              Manlio Cortelazzo, Arjuna Tuzzi,
                              Metodi statistici applicati all’italiano,
                              Zanichelli, Bologna, 2008.




                 Alessia Pierfederici e Mariagiovanna Scarale,
                 Linguistica Italiana II a.a. 2012/2013               4
1. PRELIMINARI




Lo studio della lingua è sempre stato visto, nel corso dei
decenni, come uno studio prevalentemente qualitativo.

Accanto a questo tipo di considerazione non bisogna
sottovalutare che fin dagli antichi Greci era presente l’idea
di uno studio quantitativo, basato sul confronto
numerico delle parole (hapax legoménon).




                        Alessia Pierfederici e Mariagiovanna Scarale,
                        Linguistica Italiana II a.a. 2012/2013          5
1. PRELIMINARI




L’analisi quantitativa,       però,          non          può          prescindere
dall’analisi qualitativa.

Per compiere uno studio accurato e, soprattutto, veritiero,
occorre sempre creare delle fondamenta qualitative, su cui
poggeranno poi le inferenze quantitative e i relativi
risultati statistici.




                       Alessia Pierfederici e Mariagiovanna Scarale,
                       Linguistica Italiana II a.a. 2012/2013                        6
1. PRELIMINARI




  Le indagini di cui si occupa la Statistica prendono campo
  attorno ai fenomeni collettivi e di massa (misurabili,
  quindi, mediante molteplici osservazioni).




                 Alessia Pierfederici e Mariagiovanna Scarale,
                 Linguistica Italiana II a.a. 2012/2013          7
1. PRELIMINARI


 Sono state molte le critiche mosse nei confronti dei
 linguisti che hanno cercato un approccio statistico nei
 loro studi e molti sono stati i dubbi avanzati circa l’utilità
 delle applicazioni statistiche ai fenomeni linguistici, che
 sono visti:
 - di natura qualitativa;
 - liberi, e quindi lontani dal «determinismo» statistico;
 - caratterizzati da accidenti originali e diversi gli uni dagli
    altri;
 - complessi;
 - raggiungibili, nell’aspetto numerico, solo grazie a vasti e
    imponenti studi preliminari.

                       Alessia Pierfederici e Mariagiovanna Scarale,
                       Linguistica Italiana II a.a. 2012/2013          8
1. PRELIMINARI


 A questa serie di obiezioni si può contrapporre
 l’affermazione di Guiraud che sostiene, al contrario, che

  « l a l i n g u i s t i c a è l a s c i e n z a s t a t i s t i c a t i p o,
 gli statistici lo sanno bene; la mag gior
 parte dei linguisti ancora lo ignora».

 (Tratto da Problèmes et méthodes de la statistique linguistique, Presses
 Universitaires de France, Paris, p.15)




                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013            9
1. PRELIMINARI

                        LA STATISTICA


 «Strumento per la descrizione di uno Stato in
 tutte le sue parti»
                             (Bernardoni, 1812).


 La statistica per anni ha avuto un ruolo di supporto nei processi
 decisionali nell’ambito della pianificazione economica e dell’azione
 politica dello Stato.

 Solo di recente è diventata parte integrante dei processi produttivi e
 strumento di ricerca di molte discipline scientifiche.


                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          10
1. PRELIMINARI

                 LA STATISTICA




     STATISTICA                                  STATISTICA
    DESCRITTIVA                                INFERENZIALE




                      Alessia Pierfederici e Mariagiovanna Scarale,
                      Linguistica Italiana II a.a. 2012/2013          11
1. PRELIMINARI

             LA STATISTICA DESCRITTIVA


 Analizza i dati raccolti per offrire un quadro generale, una sorta di
 «osservazione da vicino» del campione o della popolazione presi in
 esame.
 Prende in considerazione gli aspetti di organizzazione, presentazione
 (es. tabelle e grafici) e compendio dei dati; vi fanno parte le
 statistiche anagrafiche e demografiche.




                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          12
1. PRELIMINARI

            LA STATISTICA INFERENZIALE

 Nell’ottica inferenziale sono proposti metodi di raccolta per
 accumulare informazioni su un insieme (campione) ridotto di
 osservazioni (unità statistiche) e le sintesi per descrivere questo insieme
 o per inferire caratteristiche degli insiemi più vasti e generali ai quali
 questo insieme appartiene (popolazione o universo statistico).

 Attraverso l’analisi dei dati raccolti stima il livello di alcune variabili
 nella popolazione di riferimento, verifica la significatività di alcune
 associazioni ecc.

 Si occupa, in sostanza, di come trarre conclusioni riguardanti le
 popolazioni a partire dallo studio di un campione.

                                  Alessia Pierfederici e Mariagiovanna Scarale,
                                  Linguistica Italiana II a.a. 2012/2013          13
1. PRELIMINARI



La statistica moderna opera prevalentemente in condizioni di
incertezza, privilegiando l’interesse per i fenomeni che presentano
una composizione stocasica, cioè probabilistica.


«Nella misura in cui le leg gi della matematica si
riferiscono alla realtà, esse non sono certe; e
nella misura in cui sono certe, esse non si
riferiscono alla realtà.»
      ( A . E i n s t e i n , Tr a t t o d a S i d e l i g h t s o n R e l a t i v i t y )




                                         Alessia Pierfederici e Mariagiovanna Scarale,
                                         Linguistica Italiana II a.a. 2012/2013              14
1. PRELIMINARI




 È impossibile rilevare statisticamente TUTTE le manifestazioni di un
 fenomeno ( a meno che non si tratti di un fenomeno limitato e
 circostanziale), quindi l’universo o popolazione (considerando la
 statistica demografica per esempio).


 Per questo motivo bisogna effettuare un’accurata selezione dei dati
 rappresentativi di questo universo, delimitando un campione specifico,
 ma allo stesso tempo variegato.




                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          15
1. PRELIMINARI




 La lingua (langue de saussuriana), che è il sistema di segni che formano
 il codice di un idioma, cioè la parola concreta di una lingua (De
 Saussure, Cours de Linguistique Générale, 1916), è un universo statistico e
 quindi, dal punto quantitativo sembra irraggiungibile.


 Per procedere con uno studio su di essa occorre, quindi, elaborare
 un’indispensabile scelta campionaria.




                                  Alessia Pierfederici e Mariagiovanna Scarale,
                                  Linguistica Italiana II a.a. 2012/2013          16
1. PRELIMINARI




 I campioni linguistici possono essere di due tipi:
    dell’intera lingua della comunità;
    della lingua del singolo utente;




                                   Alessia Pierfederici e Mariagiovanna Scarale,
                                   Linguistica Italiana II a.a. 2012/2013          17
1. PRELIMINARI

  Campioni di Langue e Parole secondo De Saussure:


UNIVERSO                                                       CAMPIONE




            LINGUA                             Langue                     CAMPIONE
                                                                          DI Langue



              Parola 1
       Parola 2          Parola 5               Parole                   CAMPIONE
                                                                         DI Parole
          Parola 3       Parola 4
            … Parola N



                                    Alessia Pierfederici e Mariagiovanna Scarale,
                                    Linguistica Italiana II a.a. 2012/2013            18
1. PRELIMINARI



 La STATISTICA LINGUISTICA ha come obiettivo primario quello
 di spiegare i fatti linguistici servendosi delle tecniche e degli
 strumenti matematici della Statistica.


 Per realizzare questo obiettivo, lo scopo dei linguisti è quello di
 raccogliere in modo accurato i campioni, affinché i risultati dedotti
 corrispondano a verità e rispecchino le tendenze degli universi ai
 quali appartengono.




                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          19
2. NOZIONI DI STATISTICA




        Alessia Pierfederici e Mariagiovanna Scarale,
        Linguistica Italiana II a.a. 2012/2013          20
2. NOZIONI DI STATISTICA

                                LE VARIABILI

Per rilevare i caratteri di interesse dalle unità statistiche occorre servirsi di
contenitori dette variabili.
 QUALITATIVA: ha un numero finito di modalità, o categorie (ad
   esempio, la variabile genere ha solo 2 valori, che sono maschio o
   femmina, che possono essere resi in statistica, come 0 ed 1);

   ORDINALE: ha un numero finito di modalità, sulle quali è stabilito un
    criterio di ordinamento (ad esempio, la variabile titolo di studio ha 5
    modalità tra loro ordinabili e cioè: elementare, medio, superiore, laurea, laurea
    magistrale);

   QUANTITATIVA: può avere un numero potenzialmente infinito di
    valori e può essere dotata di un’unità di misura (ad esempio la variabile
    peso in Kg).

                                       Alessia Pierfederici e Mariagiovanna Scarale,
                                       Linguistica Italiana II a.a. 2012/2013           21
2. NOZIONI DI STATISTICA

                     LA MEDIA ARITMETICA (M)


Per applicare a un universo o popolazione i risultati raggiunti mediante
uno studio su un campione, uno strumento fondamentale è la media.


        𝑥1+𝑥2+⋯+𝑥𝑛
  M=                                                  Ovvero:
             𝑛
                                                      La somma di tutte le
           𝑛                                          osservazioni (x) divisa il
          𝑖=1   𝑥𝑖       1     𝑛
  M=                 =        𝑖=1   𝑥𝑖                loro numero (n)
            𝑛             𝑛




                                         Alessia Pierfederici e Mariagiovanna Scarale,
                                         Linguistica Italiana II a.a. 2012/2013          22
2. NOZIONI DI STATISTICA


                   LA MEDIA ARITMETICA


La media costituisce la tendenza centrale della distribuzione di un
insieme di dati.

Quando si parla di un campione, si usa il termine MEDIA
CAMPIONARIA.




                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013          23
2. NOZIONI DI STATISTICA

  Un esempio:
  In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:



Tragedia        I     II       III     IV          V           VI         VII         VIII   IX
Occorrenze     10     11       13      15          16          18          18          19    23




             𝑥1+𝑥2+⋯+𝑥𝑛         143
    M=            𝑛
                           =     9
                                      = 15,89




                                      Alessia Pierfederici e Mariagiovanna Scarale,
                                      Linguistica Italiana II a.a. 2012/2013                  24
2. NOZIONI DI STATISTICA

                 𝑥1+𝑥2+⋯+𝑥𝑛            143
           M=         𝑛
                                =       9
                                              = 15,89

 Sembrerebbe un risultato accettabile e logicamente corretto,
                              ma non è così!!!
 In questo caso la Media ha uno scarso significato, perché:
  è riferita a componimenti di diversa lunghezza (quindi sarebbe
    preferibile il calcolo percentuale);
  Avremmo avuto lo stesso risultato con una serie qualunque di
    numeri che sommati dessero 143.

 In questo modo, quindi, si perde di vista l’obiettivo primario , cioè
 l’Opera presa in esame.


                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013          25
2. NOZIONI DI STATISTICA

Il concetto di Media ha un valore relativo dal punto di vista scientifico.

Un altro esempio:
Se contiamo i versi di 12 canti della Divina Commedia (4 per cantica: il
VII, il VIV, il XXI e il XXVIII) si ottiene una media per canto di 141
versi

                𝑥1+𝑥2+⋯+𝑥𝑛           1692
          M=                    =              = 141
                     𝑛                12




                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          26
2. NOZIONI DI STATISTICA
       Tabella 1                                              Tabella 2
  n     Cantica     Canto    Versi                   n         Cantica          Canto   Versi
  1     Inferno      VII      130                    1         Inferno           VIII    130
  2     Inferno      XIV      142                    2         Inferno           XVI     136
  3     Inferno      XXI      139                    3         Inferno          XXIV     151
  4     Inferno     XXVIII    142                    4         Inferno          XXXII    139
  5    Purgatorio    VII      136                    5        Purgatorio         VIII    139
  6    Purgatorio    XIV      151                    6        Purgatorio         XVI     145
  7    Purgatorio    XXI      136                    7        Purgatorio        XXIV     154
  8    Purgatorio   XXVIII    148                    8        Purgatorio        XXXII    160
  9     Paradiso     VII      148                    9         Paradiso          VIII    148
  10    Paradiso     XIV      139                    10        Paradiso          XVI     154
  11    Paradiso     XXI      142                    11        Paradiso         XXIV     154
  12    Paradiso    XXVIII    139                    12        Paradiso         XXXII    151
                             1692                                                       1761


M1= 141                                        M2= 146,75


                                     Alessia Pierfederici e Mariagiovanna Scarale,
                                     Linguistica Italiana II a.a. 2012/2013                     27
2. NOZIONI DI STATISTICA

In questo caso particolare, lo scarto tra le medie dei due diversi
campioni è piccolo, quindi, in teoria, se si moltiplica il primo e il
secondo risultato per il numero di versi del canto, si dovrebbe ottenere
il totale, approssimato, dei versi di tutta l’Opera.


         Versi1= 141 × 100 = 14.100
         Versi2= 146,75 × 100 = 14.675


  La Divina Commedia conta complessivamente 14.233 versi.




                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          28
2. NOZIONI DI STATISTICA




Esistono casi in cui le valutazioni comprendono elementi non del tutto
regolari.

In questi casi l’uso della Media da dei risultati errati e di molto lontani
da quelli reali.




                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          29
2. NOZIONI DI STATISTICA

Analizzando due campioni diversi dell’Orlando Furioso (che presenta
scarti molto forti tra un canto e l’altro), si verifica proprio questo:
La Media falsa i risultati.
                                                                  Tabella
           Tabella 1                                                2
   n        Canto         Versi                          n         Canto            Versi
   1          VI              648                        1            I             648
   2         XII              752                        2           VII            640
   3        XVIII         1536                           3          XIV             1008
   4        XXIV              920                        4         XXIV             576
   5        XXX               760                        5        XXVIII            816
   6       XXXVI              672                        6        XXXV              640
   7         XLII             832                        7          XLII            832
                          6120                                                      5160

 M1= 874,29                                       M2= 737
                                    Alessia Pierfederici e Mariagiovanna Scarale,
                                    Linguistica Italiana II a.a. 2012/2013                  30
2. NOZIONI DI STATISTICA



Procedendo parallelamente, come si è fatto nell’esempio precedente
della Divina Commedia, si ottiene:


         Versi1= 874,29 × 46 = 40.217
         Versi2= 737,14 × 46 = 33.909


  L’Orlando Furioso conta complessivamente 38.672 versi.
  Quindi ENTRAMBI i risultati sono errati, perché troppo distanti dai
  valori reali.


                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          31
2. NOZIONI DI STATISTICA

                                    LA MEDIANA (m)

    Rappresenta la misura della tendenza centrale della sequenza ordinata dei valori
    presi in esame. Divide le osservazioni in due parti.
    Se il numero di osservazioni è dispari, la mediana occupa il valore centrale, se è
    pari, è rappresentata dalla media dei due valori centrali.



Tragedia            I    II     III        IV         V          VI          VII           VIII       IX
Occorrenze      10       11      13        15         16         18           18            19        23


Tragedia        I       II    III     IV         V         VI         VII        VIII        IX        X
Occorrenze     10       11    13      15        16          18         18          19            23    30


                                                 16 + 18
                                           𝑀=            = 17
                                                    2
                                           Alessia Pierfederici e Mariagiovanna Scarale,
                                           Linguistica Italiana II a.a. 2012/2013                          32
2. NOZIONI DI STATISTICA


Se M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica a
sinistra (Skewness negativa);

Se M > m c’è un accumulo verso il basso e la distribuzione è asimmetrica a
a destra (Skewness positiva);




                                   Alessia Pierfederici e Mariagiovanna Scarale,
                                   Linguistica Italiana II a.a. 2012/2013          33
2. NOZIONI DI STATISTICA



                           LA MODA


Rappresenta la misura della tendenza dei valori ed è il valore più
frequente di una distribuzione.




                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013          34
2. NOZIONI DI STATISTICA


                   LA MEDIA PONDERATA (Mp)

Si usa quando è fissato un sistema di pesi che danno diversa importanza
alle osservazioni. È il metodo usato per la media dei voti registrati su un
libretto universitario (il peso in quel caso sono i crediti dell’esame da
valutare).
Nella somma il valore di ogni unità statistica viene moltiplicato per il
proprio peso e tutto viene diviso per la somma dei pesi.

                                 𝑛
                                𝑖 =1 𝑥𝑖   × 𝑝𝑖
                      Mp =          𝑛
                                   𝑖 =1   𝑝𝑖

La Media aritmetica è un caso di Mp in cui tutti i pesi sono uguali ad 1.



                                   Alessia Pierfederici e Mariagiovanna Scarale,
                                   Linguistica Italiana II a.a. 2012/2013          35
2. NOZIONI DI STATISTICA




La Media Ponderata è molto utile in linguistica per lo studio della
distribuzione di frequenza di un dato fenomeno in un corpus.



                               𝑛
                              𝑖 =1 𝑥𝑖   × 𝑓𝑖
                     Mp =         𝑛
                                 𝑖 =1    𝑓𝑖



Con xi che rappresenta la lunghezza dei caratteri (quindi il peso che i
fenomeni analizzati posseggono) e fi che rappresenta la frequenza dei
fenomeni (delle preposizioni nell’esempio che segue) che si vogliono
analizzare nel corpus.
                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          36
2. NOZIONI DI STATISTICA




Con questo metodo è stato possibile analizzare, per esempio, la
distribuzione di frequenza di alcune preposizioni in 7 discorsi di fine
anno del Presidente Ciampi.


                                 𝑛
                                𝑖 =1 𝑥𝑖   × 𝑓𝑖
                      Mp =          𝑛
                                   𝑖 =1   𝑓𝑖



Sempre con xi che rappresenta la lunghezza dei caratteri (quindi il peso
che i fenomeni analizzati posseggono) e fi che rappresenta la frequenza
delle preposizioni (o dei fenomeni in genere) nel corpus.

                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          37
2. NOZIONI DI STATISTICA
     n    Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1)
      1           di              2                        996               1992
      2            a              1                        397                397
      3           in              2                        382                764
      4          per              3                        177                531
      5         con               3                        127                381
      6          da               2                        107                214
      7          su               2                         60                120
      8          fra              3                         32                 96
      9          tra              3                         21                 63
     10        verso              5                         10                 50
     11        senza              5                          6                 30
     12       contro              6                          5                 30
     13        dopo               4                          5                 20
     14         oltre             5                          5                 25
     15     attraverso            10                         4                 40
     16     prima (di)            5                          3                 15
     17          più              3                          3                  9
     18        fuori              5                          3                 15
     19         fino              4                          2                  8
     20      durante              7                          2                 14
     21       dentro              6                          2                 12
     22         sino              4                          2                  8
     23        sotto              5                          1                  5
     24    lontano (da)           7                          1                  7
     25        entro              5                          1                  5
                                 107                      2354                4851
                                        Alessia Pierfederici e Mariagiovanna Scarale,
                                        Linguistica Italiana II a.a. 2012/2013          38
2. NOZIONI DI STATISTICA



    Applicando la formula:



                     𝑛
                    𝑖 =1 𝑥𝑖   × 𝑓𝑖       4851
           Mp =         𝑛            =           = 2,06
                       𝑖 =1   𝑓𝑖         2354




Si deduce che nel corpus analizzato le proposizioni più frequenti sono
quelle che hanno, in media, una lunghezza di 2,06 caratteri.




                                     Alessia Pierfederici e Mariagiovanna Scarale,
                                     Linguistica Italiana II a.a. 2012/2013          39
2. NOZIONI DI STATISTICA


     LO SCARTO TIPO (s) O DEVIAZIONE STANDARD


Si usa per valutare quanto determinati valori si discostano dalla media,
per stabilire, cioè, la loro variazione.
                                      𝑛
                                     𝑖=1(𝑥𝑖 − 𝑀)2
                            s=
                                          𝑛−1


Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)
meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità
(n) del campione meno 1.




                                  Alessia Pierfederici e Mariagiovanna Scarale,
                                  Linguistica Italiana II a.a. 2012/2013          40
2. NOZIONI DI STATISTICA



 Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)
 meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità
 (n) del campione meno 1.



                               𝑛
                                   − 𝑀)2
                              𝑖=1(𝑥𝑖
                      s=
                                 𝑛−1




                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          41
2. NOZIONI DI STATISTICA



 La deviazione standard o scarto tipo o scarto quadratico
 medio è un indice di dispersione (vale a dire una misura di
 variabilità di una popolazione o di una variabile casuale) derivato
 direttamente dalla varianza (𝒔 𝟐 ).
 Ha la stessa unità di misura dei valori osservati (mentre la
 varianza ha come unità di misura il quadrato dell'unità di misura
 dei valori di riferimento) e misura la dispersione dei dati intorno
 al valore atteso (M).




                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013          42
2. NOZIONI DI STATISTICA

Ricapitolando:

Si divide la somma dei quadrati degli scarti (x-M)2 per il numero di
osservazioni meno 1 (n - 1).
Da questa divisione si ottiene la VARIANZA CAMPIONARIA
(𝑠 2 ) .
                               𝑛
                                   − 𝑀)2
                              𝑖=1(𝑥𝑖
                     𝑠2   =
                                 𝑛−1


Estraendone la radice quadrata, invece, si ottiene lo SCARTO
TIPO CAMPIONARIO o DEVIAZIONE STANDARD(s).

                                𝑛
                                    − 𝑀)2
                               𝑖=1(𝑥𝑖
                     s=
                                  𝑛−1

                                       Alessia Pierfederici e Mariagiovanna Scarale,
                                       Linguistica Italiana II a.a. 2012/2013          43
2. NOZIONI DI STATISTICA

Un esempio:

Valutazione in trentesimi riportata da un campione di 10 studenti.


                                               Scarto dalla Quadrato degli
    studente   voto (x)   voto medio (M)       media (x-M) scarti (x-M) 𝟐
       1         22            26                     -4                 16
       2         23            26                     -3                 9
       3         24            26                     -2                 4
       4         26            26                     0                  0
       5         26            26                     0                  0
       6         27            26                     1                  1
       7         27            26                     1                  1
       8         27            26                     1                  1
       9         28            26                     2                  4
       10        30            26                     4                  16
                 260                                  0                  52

                                     Alessia Pierfederici e Mariagiovanna Scarale,
                                     Linguistica Italiana II a.a. 2012/2013          44
2. NOZIONI DI STATISTICA

                         Varianza Campionaria
                              𝑛
                             𝑖=1(𝑥𝑖   −𝑀)2       52
                    𝑠2   =      𝑛−1
                                             =    9
                                                      = 5,77




                    Scarto Tipo Campionario
                              𝑛        2
                             𝑖=1(𝑥𝑖−𝑀)           52
                   s=                        =        = 2,40
                                𝑛−1               9




Il 2,40 degli studenti ha ottenuto un voto che rientra nella media dei
voti del campione.


                                        Alessia Pierfederici e Mariagiovanna Scarale,
                                        Linguistica Italiana II a.a. 2012/2013          45
2. NOZIONI DI STATISTICA




 Questa tecnica può essere usata anche per comparare diversi
 campioni e quindi può essere molto utile in campo linguistico
 per la comparazione di più corpus.




                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013          46
2. NOZIONI DI STATISTICA

  Tornando ad uno dei primi esempi:
  In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:



Tragedia        I     II       III     IV          V           VI         VII         VIII   IX
Occorrenze     10     11       13      15          16          18          18          19    23




             𝑥1+𝑥2+⋯+𝑥𝑛         143
    M=            𝑛
                           =     9
                                      = 15,89




                                      Alessia Pierfederici e Mariagiovanna Scarale,
                                      Linguistica Italiana II a.a. 2012/2013                  47
2. NOZIONI DI STATISTICA

                                                Scarto dalla         Quadrato degli
tragedia frequenza (x)   media (M)              media (x-M)           scarti (x-M) 𝟐

   1          10            16                         -6                    36

   2          11            16                         -5                    25

   3          13            16                         -3                        9

   4          15            16                         -1                        1

   5          16            16                         0                         0

   6          18            16                         2                         4

   7          18            16                         2                         4

   8          19            16                         3                         9

   9          23            16                         7                     49

              143                                      0                     137


                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013                48
2. NOZIONI DI STATISTICA



              𝑥1+𝑥2+⋯+𝑥𝑛         143
        M=                   =         ≈ 16
                   𝑛              9




                 𝑛       2
                𝑖=1(𝑥𝑖−𝑀)        137
        s=                   =          ≈4
                    𝑛−1           8




La differenza tra il risultato che si ottiene (quello effettivo) e quello
teorico (media) è pari a 4.
In ogni tragedia, rispetto alla media, il numero di heureux si può
discostare mediamente di 4 rispetto alla media(ha una probabile
variabilità pari a 4).
                                       Alessia Pierfederici e Mariagiovanna Scarale,
                                       Linguistica Italiana II a.a. 2012/2013          49
2. NOZIONI DI STATISTICA


                            I QUANTILI


Per la descrizione della distribuzione di un fenomeno quantitativo e
ordinabile è possibile usare i Quantili, che permettono la ripartizione
della distribuzione in parti uguali.

•   QUARTILI;
•   DECILI;
•   PERCENTILI;




                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          50
2. NOZIONI DI STATISTICA

                        I QUARTILI




OUTLIERS                                                                     OUTLIERS




                             Alessia Pierfederici e Mariagiovanna Scarale,
                             Linguistica Italiana II a.a. 2012/2013               51
2. NOZIONI DI STATISTICA

                           I DECILI




                           Alessia Pierfederici e Mariagiovanna Scarale,
                           Linguistica Italiana II a.a. 2012/2013          52
2. NOZIONI DI STATISTICA

                    I PERCENTILI




                                                  III Quartile


                                                  II Quartile o Mediana


                                                   I Quartile




                           Alessia Pierfederici e Mariagiovanna Scarale,
                           Linguistica Italiana II a.a. 2012/2013          53
2. NOZIONI DI STATISTICA

                TABELLA DI FREQUENZE


   • FREQUENZA ASSOLUTA (𝒇 𝒂 ): numero di occorrenze
     nel corpus;

   • FREQUENZA RELATIVA (𝒇 𝒓 ): si ha con il quoziente
     ottenuto dividendo 𝑓𝑎 per il numero n di osservazioni;

   •   FREQUENZA PERCENTUALE (𝒇 𝒑 ):                     ottenuta con la
       moltiplicazione per 100 di 𝑓𝑟.




                            Alessia Pierfederici e Mariagiovanna Scarale,
                            Linguistica Italiana II a.a. 2012/2013          54
2. NOZIONI DI STATISTICA
                  TABELLA DI FREQUENZE



 Frequenza Assoluta        𝒇 𝒂 = conteggio delle occorrenze;



                                  𝑓𝑎
 Frequenza Relativa        𝒇 𝒓=   𝑛




 Frequenza Percentuale     𝒇 𝒑 = 𝑓𝑟 × 100




                           Alessia Pierfederici e Mariagiovanna Scarale,
                           Linguistica Italiana II a.a. 2012/2013          55
2. NOZIONI DI STATISTICA
                             TABELLA DI FREQUENZE
  Un esempio:
  Distribuzione per categorie grammaticali delle occorrenze nei 7
  discorsi di Ciampi.

    n              n(x)                     𝒇𝒂                     𝒇𝒓               𝒇𝒑
    1            aggettivi                1762                    0,14              14
    2            avverbi                   571                    0,05              5
    3         congiunzioni                 628                    0,05              5
    4             articoli                1210                    0,1               10
    5             nomi                    3187                    0,25              25
    6          preposizioni               2354                    0,19              19
    7            pronomi                   767                    0,06              6
    8               verbi                 1912                    0,15              15
            altro (nomi propri,
    9        esclamazioni…)                178                    0,01              1

                   260                   12569                      1               100
                                    Alessia Pierfederici e Mariagiovanna Scarale,
                                    Linguistica Italiana II a.a. 2012/2013                56
2. NOZIONI DI STATISTICA


                COEFFICIENTE DI VARIAZIONE


Permette di confrontare misure e fenomeni con unità di misura differenti.
È un INDICE DI PRECISIONE di una misura.
Due Scarti Tipo possono essere confrontati direttamente fra loro se:
 sono espressi nella stessa unità di misura;
 l’ordine di grandezza o dimensione della media è simile;


Negli altri casi occorre semplicemente calcolare il rapporto tra lo Scarto
Tipo (s) e la Media (M). Il quoziente ottenuto è il Coefficiente di
variazione (v):

                                    𝑠
                                v =
                                    𝑀

                                   Alessia Pierfederici e Mariagiovanna Scarale,
                                   Linguistica Italiana II a.a. 2012/2013          57
2. NOZIONI DI STATISTICA


Esempio:

      𝑀1 = 8,0                                 𝑀2 = 5,0

     𝑠1 = 2,28                               𝑠2 = 1,6

           2,28                                    1,6
      𝑣1 =      = 0,28                        𝑣2 =     = 0,32
            8,0                                    5,0
                        𝑣1 0,28
               𝑣1,2   =   =     = 0,88 = 88%
                        𝑣2 0,32


Come proporzione:

        𝑣1,2     𝑣1 : 𝑣2 = 88: 100
                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          58
2. NOZIONI DI STATISTICA


           PUNTEGGIO Z (O SCARTO RIDOTTO)


Il punteggio z è il quoziente fra lo scarto dalla media e lo scarto tipo,
serve a misurare di quanti “scarti tipo” un valore osservato dista
dalla media.

Lo scarto ridotto è importante perché permette di valutare se le
variazioni dalla media siano aleatorie o significativamente distanti.




                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          59
2. NOZIONI DI STATISTICA



Per riconoscere quali valori sono da considerare significativi si può
applicare la seguente regola empirica:

- I punteggi z compresi nell’intervallo (-2, +2 ) NON sono
significativi;


- I punteggi superiori a 2 o inferiori a -2 sono considerabili insoliti;

- I punteggi superiori a 3 o inferiori a -3 possono essere considerati
molto insoliti.



                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          60
2. NOZIONI DI STATISTICA


                     LA STIMA INTERVALLARE

La stima intervallare consiste nel calcolare, sulla base dei dati di un
campione, un intervallo di valori per cui sia possibile dire che il valore di
un parametro cada al suo interno.


L’intervallo rappresenta dunque sia la stima del valore del
parametro sia l’incertezza associata alla stima.




                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          61
2. NOZIONI DI STATISTICA


   ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA



                           Ovvero:
                𝑠          Lo scarto diviso per la
           𝑒=              radice quadrata della
                    𝑛
                           dimensione del campione.




                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          62
2. NOZIONI DI STATISTICA


                       TEST SU UN CAMPIONE


Il test statistico è una procedura che utilizza una sintesi dei dati
campionari per saggiare la validità di un’ipotesi su una caratteristica della
popolazione.

In statistica, l’ipotesi che si intende verificare prende il nome di ipotesi
alternativa e si contrappone all’ipotesi nulla.




                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          63
2. NOZIONI DI STATISTICA



Se il punteggio z presenta un valore assoluto inferiore a 2 si accetta
l’ipotesi nulla con un valore di significatività del 95%


Viceversa, l’ipotesi nulla verrà rifiutata a vantaggio dell’ipotesi
alternativa.




                                          Alessia Pierfederici e Mariagiovanna Scarale,
                                          Linguistica Italiana II a.a. 2012/2013          64
2. NOZIONI DI STATISTICA


          MODELLI TEORICI PER LE PROPORZIONI


Finora abbiamo preso in considerazione lo scarto tipo di una
distribuzione, ricorrendo a prove concrete, ma è importante anche poter
confrontare i risultati così ottenuti con un modello teorico.

Parleremo quindi, parallelamente allo scarto tipo campionario, di uno
scarto tipo teorico.




                                           Alessia Pierfederici e Mariagiovanna Scarale,
                                           Linguistica Italiana II a.a. 2012/2013          65
2. NOZIONI DI STATISTICA


Questo comporta due possibilità:


- uno scarto tipo campionario circa uguale allo scarto tipo teorico, in
cui la distribuzione effettiva equivale a una distribuzione casuale;


- uno scarto tipo superiore o inferiore allo scarto tipo teorico, in cui la
distribuzione reale è stata condizionata da cause diverse, che potranno
essere ricercate.




                                            Alessia Pierfederici e Mariagiovanna Scarale,
                                            Linguistica Italiana II a.a. 2012/2013          66
2. NOZIONI DI STATISTICA


                               Un esempio:
Calcoliamo i due scarti tipo prendendo come scarto base una traduzione
anonima in veneziano del I canto dell’Orlando furioso. Delle 4896
occorrenze totali del canto, 232 sono che e ch’.


Probabilità d’apparizione di ch(e) nel testo: p = 232/4896 = 0,047


Perciò la possibilità che escano altre parole è: q = 1 – p = 0,953




                                            Alessia Pierfederici e Mariagiovanna Scarale,
                                            Linguistica Italiana II a.a. 2012/2013          67
2. NOZIONI DI STATISTICA



Dividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognuno
avente 204 parole). Il numero di ch(e) in ogni gruppo sarà dunque:


nc = 204 × 0,047 = 9,588

Quindi, secondo la distribuzione Binomiale, il 95% delle osservazioni
dovrebbe stare nell’intervallo da 4 a 16.




                                        Alessia Pierfederici e Mariagiovanna Scarale,
                                        Linguistica Italiana II a.a. 2012/2013          68
n    numero di che    ( x – y)          (x-y) 𝟐

1          4         -5,667            32,111
2          4         -5,667            32,111
3          6         -3,667            13,444
4          6         -3,667            13,444
5          6         -3,667            13,444
6          7         -2,667              7,111
7          7         -2,667              7,111
8          8         -1,667              2,778
9          8         -1,667              2,778
10         9         -0,667              0,444
11         9         -0,667              0,444
12         9         -0,667              0,444
13        10         -0,333              0,111
14        10         -0,333              0,111
15        11         1,333              1,778
16        11         1,333              1,778
17        11         1,333              1,778
18        12         2,333              5,444
19        12         2,333              5,444
20        13         3,333              11,111
21        14         4,333              18,778
22        14         4,333              18,778
23        14         4,333              18,778
24        17         7,333              53,778
          232         0                  263,333


                                 Alessia Pierfederici e Mariagiovanna Scarale,
                                 Linguistica Italiana II a.a. 2012/2013          69
2. NOZIONI DI STATISTICA




Essendo lo scarto tipo campionario solo leggermente superiore a
quello teorico (determinato da un’estrazione aleatoria) dobbiamo
concludere che l’uso del ch(e) da parte dell’anonimo scrittore
veneziano sia del tutto regolare e non dettato da particolari scelte
stilistiche.




                                           Alessia Pierfederici e Mariagiovanna Scarale,
                                           Linguistica Italiana II a.a. 2012/2013          70
2. NOZIONI DI STATISTICA


         VALUTARE LA DIFFERENZA TRA CAMPIONI


Spesso può risultare utile o necessario saggiare attraverso un test l’ipotesi
di uguaglianza su due campioni indipendenti al fine di capire se questi
provengano o meno dalla stessa popolazione.

Applicando la solita regola empirica del punteggio z otterremo che, con
valori superiori a 2 possiamo rifiutare l’ipotesi nulla (l’ipotesi nulla in
questo caso è l’uguaglianza tra le due proporzioni, la derivazione unica).




                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          71
2. NOZIONI DI STATISTICA


                              IL X² DI PEARSON


Con il test di X² (o test di Pearson) è possibile misurare in probabilità lo
scarto tra un modello teorico e un’osservazione sperimentale.


Avremo la seguente formula:
                                       E’ uguale alla sommatoria (da 1 a
              𝑘                        k) del quadrato della differenza fra
                   (𝑓𝑖 − 𝑓𝑖 ∗ )2       frequenta osservata e frequenza
      𝑋2 =
                        𝑓𝑖 ∗           teorica, fratto la frequenza teorica.
             𝑖=1




                                             Alessia Pierfederici e Mariagiovanna Scarale,
                                             Linguistica Italiana II a.a. 2012/2013          72
2. NOZIONI DI STATISTICA


  Un esempio:



               Osservato     Teorico        Scarto           Quadrato               Frazione
                                                            dello scarto
 Fonema i         332           400          -68                 4.624                 11,56
Altri fonemi     3.538         3.470         +68                 4.624                  1,33
                 3.870         3.870          0                                        12,89


 La frequenza del fonema «i» nelle poesie di Gozzano.




                                                  Alessia Pierfederici e Mariagiovanna Scarale,
                                                  Linguistica Italiana II a.a. 2012/2013          73
2. NOZIONI DI STATISTICA


     L’ANALISI BIVARIATA DI VARIABILI QUALITATIVE


Sulle osservazioni di un campione normalmente vengono rilevati più
caratteri e uno degli scopi dell’analisi statistica è verificare l’esistenza di
“relazioni” tra le variabili disponibili.

Il caso più semplice è quello dell’analisi bivariata di caratteri qualitativi,
cioè delle tecniche finalizzate a studiare il grado di associazione tra due
variabili qualitative.




                                               Alessia Pierfederici e Mariagiovanna Scarale,
                                               Linguistica Italiana II a.a. 2012/2013          74
2.NOZIONI DI STATISTICA

                    INDICI DI CONNESSIONE


  L’indice di connessione lessicale corrisponde al rapporto tra la parte
  comune del vocabolario (o occorrenze) e il totale del vocabolario
  stesso.


  Per misurare il grado di connessione lessicale fra due testi è necessario
  che essi abbiamo all’incirca la stessa lunghezza.




                                            Alessia Pierfederici e Mariagiovanna Scarale,
                                            Linguistica Italiana II a.a. 2012/2013          75
3.UN ESPERIMENTO DI
 STATISTICA LESSICALE:
le opere di Alessandro Baricco




         Alessia Pierfederici e Mariagiovanna Scarale,
         Linguistica Italiana II a.a. 2012/2013          76
3. UN ESPERIMENTO DI STATISTICA LESSICALE


  PRIMI PASSI:


 1.   Scelta del testo e individuazione delle unità di analisi;
 2.   Media e dispersione;
 3.   Ricchezza lessicale;
 4.   Valutazione del lessico;




                            Alessia Pierfederici e Mariagiovanna Scarale,
                            Linguistica Italiana II a.a. 2012/2013          77
3. UN ESPERIMENTO DI STATISTICA LESSICALE



1. Scelta del testo e individuazione delle unità d’analisi:


 Specificare l’edizione del testo che verrà presa in analisi e tutti
 i meccanismi di inclusione o esclusione del testo adottati.
 Fornire quanta più chiarezza possibile ed obiettività, in modo
 da rendere ripetibile l’esperimento e non falsarlo.




                             Alessia Pierfederici e Mariagiovanna Scarale,
                             Linguistica Italiana II a.a. 2012/2013          78
3. UN ESPERIMENTO DI STATISTICA LESSICALE


                        Alessandro Baricco

•   Castelli di rabbia, Milano, Rizzoli, 1991. ISBN 88-17-66039-6;
•   Oceano mare, Milano, Rizzoli, 1993. ISBN 88-17-66043-4;
•   Novecento. Un monologo, Milano, Feltrinelli, 1994. ISBN 88-07-81302-5;
•   Seta, Milano, Rizzoli, 1996. ISBN 88-17-66059-0;
• City, Milano, Rizzoli, 1999. ISBN 88-17-86102-2;
•   Senza sangue, Milano, Rizzoli, 2002. ISBN 88-17-87017-X;
• Mr Gwyn, Milano, Feltrinelli, 2011. ISBN 88-07-01862-4;
•   Tre volte all’alba, Milano, Feltrinelli, 2012. ISBN 88-07-01905-1;

                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          79
3. UN ESPERIMENTO DI STATISTICA LESSICALE


  Software open source per il conteggio delle parole:




 http://text-analyzer.softonic.it/



                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          80
3. UN ESPERIMENTO DI STATISTICA LESSICALE

         NOVECENTO, UN MONOLOGO




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013          81
3. UN ESPERIMENTO DI STATISTICA LESSICALE




                                                Si sono considerate le parole
                                                complessive delle opere in
                                                questione, quindi, sono state
                                                riportante anche eventuali
                                                ripetizioni e omografi.




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013                  82
3. UN ESPERIMENTO DI STATISTICA LESSICALE


                                                   Percentuale di occorrenze e
                                                   d’uso di ogni parola del
                                                   corpus.




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013                  83
3. UN ESPERIMENTO DI STATISTICA LESSICALE


                            Lessemi che occorrono in
                            forma concatenata in tutto il
                            corpus.




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013          84
3. UN ESPERIMENTO DI STATISTICA LESSICALE




                   Hapax: lessemi che
                   occorrono una sola volta in
                   tutto il corpus.




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013          85
3. UN ESPERIMENTO DI STATISTICA LESSICALE

                                                                               N= lunghezza del
         OPERA       ANNO   PAROLE (N)         PAROLE DIVERSE (V)              testo, cioè la somma
                                                                               totale delle frequenze
Castelli di rabbia   1991     52.989                     8.466
                                                                               delle parole, anche se
                                                                               ripetute. I tempi
Oceano mare          1993     47.395                     7.461
                                                                               composti e le
Novecento            1994     12.041                     2.755                 locuzioni, però, sono
                                                                               considerati come
Seta                 1996     15.063                     3.188                 un’unica parola;
City                 1999     87.068                    10.875
                                                                               V=       vocabolario,
Senza sangue         2002     15.770                     2.920                 cioè il numero delle
                                                                               parole diverse nel
Mr. Gwyn             2011     40.861                     7.242
                                                                               corpus in questione,
Tre volte all'alba   2012     15.835                     3.016                 senza tener conto
                                                                               della frequenza;

                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013                              86
3. UN ESPERIMENTO DI STATISTICA LESSICALE


2. Calcolo della dispersione (R) del vocabolario (V):

L= lessico. È la quantità indimostrata di parole che potenzialmente un
individuo conosce;
     • Estensione: numero di parole di cui è composto;
     • Struttura: rapporto delle frequenze di queste parole;

Ld= lessico disperso. Utilizza quante più possibili parole diverse;

Lc= lessico concentrato. Riutilizza le stesse parole. È fatto di ripetizioni.

Parole forti: hanno un significato autonomo dal contesto (es. sostantivi,
aggettivi, verbi e avverbi);

Parole deboli: parole che acquistano significato in base al contesto in cui si
trovano (es. articoli, preposizioni, pronomi, congiunzioni ecc);

                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013            87
3. UN ESPERIMENTO DI STATISTICA LESSICALE


R è l’indice di dispersione;

C è l’indice di concentrazione;

 𝑺𝒇 𝟓𝟎 è la somma delle frequenze delle prime 50 parole forti;

N è il numero totale delle parole;


Per tutte le parole                           Per le parole forti


             𝑉                                                   𝑉                    𝑆𝑓50
                           𝑆𝑓50                      𝑅𝑓 =                      𝐶𝑓 =
      𝑅=                𝐶=                                                            2𝑁
                 𝑁           𝑁                                  2𝑁



                               Alessia Pierfederici e Mariagiovanna Scarale,
                               Linguistica Italiana II a.a. 2012/2013                        88
3. UN ESPERIMENTO DI STATISTICA LESSICALE



   Applicando la formula a Novecento di Baricco e analizzando tutte le
   parole, si ottiene, per esempio, come indice di dispersione:

                    𝑉           2.755              2.755
            𝑅=              =               =                  = 25,10
                        𝑁       12.041             109,73
                        𝑉             2.755                  2.755
            𝑅𝑓 =        2𝑁
                                =   2 ×12.041
                                                       =     155,18
                                                                          =17,75
R da come risultato la dispersione delle parole meno frequenti, che
rappresentano però una misura della ricchezza del vocabolario dal quale
sono tratte. È un fenomeno legato alla caratterizzazione del testo e dipende
dalla misura del corpus.
Empiricamente risulta che, per testi di dimensioni comprese tra
10000 e 50000 occorrenze, R vale circa 22 (Guiraud, P., Les caractères du
vocabolaire. Essays de metodologie, Presses Universitaire de France, Paris, 1954 ).
                                    Alessia Pierfederici e Mariagiovanna Scarale,
                                    Linguistica Italiana II a.a. 2012/2013          89
3. UN ESPERIMENTO DI STATISTICA LESSICALE

 L’indice di concentrazione, invece, sarà:

         𝑆𝑓50    4.904
      𝐶=      = 12.041 = 0,40
           𝑁

            𝑆𝑓50      4.904      4.904
      𝐶𝑓 =       = 2 × 12.041 = 24.082 = 0,20
           2× 𝑁


Cioè la concentrazione delle parole più frequenti, o tematiche è
pari a 0,20.
È un fenomeno legato all’argomento del testo e alla motivazione
che lo origina.
(Guiraud).


                           Alessia Pierfederici e Mariagiovanna Scarale,
                           Linguistica Italiana II a.a. 2012/2013          90
3. UN ESPERIMENTO DI STATISTICA LESSICALE

   3. La ricchezza lessicale:
 L’indice di ricchezza lessicale RL si ottiene calcolando la differenza
 tra l’indice di dispersione R per ogni opera e la sua media totale MR.


                        𝑅𝐿 = 𝑅 − 𝑀𝑅


Si può valutare quanto questo indice (ricchezza lessicale RL) è
superiore o inferiore alla media, con una semplice operazione:

                             𝑀𝑅 − 𝑅𝐿




                            Alessia Pierfederici e Mariagiovanna Scarale,
                            Linguistica Italiana II a.a. 2012/2013          91
3. UN ESPERIMENTO DI STATISTICA LESSICALE



Per studiare la ricercatezza del linguaggio 𝑹 𝟏 , invece:

                                            𝑛
                                           𝑖=1   𝑉1 𝑖
                              𝑅1 =             𝑛
                                              𝑖=1 𝑉

Dove 𝑉1 sono gli hapax, ossia le parole che occorrono una sola volta
Si usa come un indice di “ricercatezza del linguaggio” solitamente (ma non
sempre) per confrontare testi di pari dimensioni.




                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          92
3. UN ESPERIMENTO DI STATISTICA LESSICALE

  4. La valutazione del lessico:

 Per stabilire l’entità del patrimonio linguistico del lessico, si usa,
 invece, la semplice proporzione, in cui l’incognita è rappresentata da
 Lx:

                           MR : ML = R : Lx

 Lx sarà uguale alla media del lessico totale (35,86) di ogni opera
 moltiplicata per l’indice di dispersione dell’opera specifica da valutare,
 il tutto diviso per la media totale (ottenuta dagl’indici di dispersione di
 ogni opera).
 Per comodità il risultato viene ulteriormente diviso per 1000, in modo
 da ottenere un numero gestibile dal punto di vista statistico

 Il risultato sarà poi confrontato sia con la media della ricchezza
 lessicale MRL sia con la ricchezza lessicale RL .
                             Alessia Pierfederici e Mariagiovanna Scarale,
                             Linguistica Italiana II a.a. 2012/2013            93
3. UN ESPERIMENTO DI STATISTICA LESSICALE

 Mettendo in pratica queste analisi per tutte le opere analizzate si
 otterranno i valori riportati nelle seguenti tabelle:


           OPERA        ANNO                       PAROLE (N)                   PAROLE DIVERSE (V)

Castelli di rabbia       1991                           52.989                         8.466

Oceano mare              1993                           47.395                         7.461

Novecento                1994                           12.041                         2.755

Seta                     1996                           15.063                         3.188

City                     1999                           87.068                        10.875

Senza sangue             2002                           15.770                         2.920

Mr. Gwyn                 2011                           40.861                         7.242

Tre volte all'alba       2012                           15.835                         3.016


                                Alessia Pierfederici e Mariagiovanna Scarale,
                                Linguistica Italiana II a.a. 2012/2013                               94
3. UN ESPERIMENTO DI STATISTICA LESSICALE
                                                                                  RICCHEZZA
                                                                                   LESSICALE
                                                                                   RISPETTO         RICERCATEZZA
                                PAROLE DIVERSE DISPERSIONE DISPERSIONE MEDIA DI R ALLA MEDIA             DEL       PATRIMONIO
 OPERA        ANNO   PAROLE (N)      (V)            [R]        [Rf]      [MR]         [RL]   HAPAX LINGUAGGIO [R1] LINGUISTICO



Castelli di
 rabbia       1991     52.989       8.466         36,78       26,01         30,25         6,52       4.979       3,14   43,614


 Oceano
  mare        1993     47.395       7.461         34,27       24,23                       4,02       4.298       3,57   40,642




Novecento     1994     12.041       2.755         25,11       17,75                       -5,15      1.672       9,66   29,774




   Seta       1996     15.063       3.188         25,98       18,37                       -4,28      1.830       8,35   30,804




   City       1999     87.068       10.875        36,86       26,06                       6,60       5.950       2,45   43,706


  Senza
 sangue       2002     15.770       2.920         23,25       16,44                       -7,00      1.618       9,12   27,575




Mr. Gwyn      2011     40.861       7.242         35,83       25,33                       5,57       4.541       3,68   42,486


Tre volte                                                        Alessia Pierfederici e Mariagiovanna Scarale,
 all'alba     2012     15.835       3.016         23,97           Linguistica Italiana II a.a. 2012/2013
                                                              16,95                         -6,29     1.732      8,83   28,423   95
3. UN ESPERIMENTO DI STATISTICA LESSICALE


Applicando un metodo di astrazione e di inferenza superiore, possiamo
considerare i corpus analizzati come un unico blocco, arrivando così alle
conclusioni (ovviamente in questo caso si parlerà di medie e valori
approssimati, dato che ognuno presenterà uno scarto che lo
differenzierà dagli altri, e non di valori precisi).
Strumento indispensabile per questo passo è un elaboratore di fogli
elettronici, come Microsoft Excel (per Windows) o Open Office (per le
altre piattaforme).




                              Alessia Pierfederici e Mariagiovanna Scarale,
                              Linguistica Italiana II a.a. 2012/2013          96
3. UN ESPERIMENTO DI STATISTICA LESSICALE

  100.000                                                                          Il rapporto tra il
   90.000
   80.000
                                                                                   Lessico (N) e il
   70.000                                                                          Vocabolario (V).
   60.000
   50.000                                                                          È evidenziato
   40.000
   30.000
                                              PAROLE (N)                           l’andamento per ogni
   20.000                                     PAROLE DIVERSE (V)                   opera (asse x).
   10.000
        0




100.000
                                                                                     L’andamento del
 90.000                                                                              Vocabolario è
 80.000                                                                              pressappoco costante
 70.000
                                                                                     e non dipende,
 60.000
                                            PAROLE (N)
                                                                                     apparentemente,
 50.000
 40.000                                     PAROLE DIVERSE (V)                       dall’andamento del
 30.000                                                                              Lessico.
 20.000                                                                              Le opere sono
 10.000
                                                                                     sempre riportate
     0
            1   2   3   4   5   6   7   8                                            sull’asse x.
                                            Alessia Pierfederici e Mariagiovanna Scarale,
                                            Linguistica Italiana II a.a. 2012/2013                          97
3. UN ESPERIMENTO DI STATISTICA LESSICALE
40,00

35,00                                                                                           Il rapporto tra
30,00                                                                                           l’indice di
25,00                                                                                           dispersione
20,00                                                            DISPERSIONE [R]                complessivo (R) e
15,00
                                                                 DISPERSIONE [Rf]               l’indice di
10,00                                                                                           dispersione per le
 5,00
                                                                                                parole forti (Rf).
 0,00
                                                                                                È evidenziato
          1       2   3   4       5       6       7       8                                     l’andamento per ogni
                                                                                                opera (asse x).
  40,00

  35,00

  30,00                                                                                         Il rapporto l’indice di
  25,00                                                                                         dispersione Medio e
                                                                MEDIA DI R [MR]
  20,00
                                                                                                la ricchezza lessicale.
                                                                RAPPORTO DI [RL]
  15,00                                                         CON LA MEDIA [MR]
  10,00

   5,00

   0,00
              1   2   3   4   5       6       7       8

                                                              Alessia Pierfederici e Mariagiovanna Scarale,
                                                              Linguistica Italiana II a.a. 2012/2013                      98
3. UN ESPERIMENTO DI STATISTICA LESSICALE
                                                         HAPAX
                     7.000

                     6.000

                     5.000                                                                                                  La distribuzione di
                     4.000                                                                                                  frequenza degli hapax
                     3.000                                                                                      HAPAX       nelle opere.
                     2.000

                     1.000

                          0
                              1        2          3          4          5          6          7      8


                                  Distribuzione del Patrimonio
                                      Linguistico negli anni
                               50000
Patrimonio Linguistico




                               45000
                               40000
                               35000
                                                                                                                         La distribuzione del
                               30000
                               25000
                                                                                                                         patrimonio
                               20000
                               15000
                                                                                                                         linguistico dell’autore
                               10000                                                                                     nel corso degli anni.
                                5000
                                   0
                                             1          2          3          4          5          6      7      8
                          ANNO             1991       1993       1994       1996       1999       2002   2011   2012
                          PATRIMONIO
                                      43614 40642 29774 30804 43706 27575 42486 28423
                          LINGUISTICO

                                                                                          Alessia Pierfederici e Mariagiovanna Scarale,
                                                                                          Linguistica Italiana II a.a. 2012/2013                    99
3. UN ESPERIMENTO DI STATISTICA LESSICALE


 ALTRI STRUMENTI:
 LINGUISTICA COMPUTAZIONALE E PYTHON


 Studi di questo tipo possono essere adeguatamente
 «personalizzati» ed adattati alle esigenze del ricercatore con i
 più moderni strumenti della Linguistica Computazionale,
 disciplina in costante evoluzione.
 A tal proposito risulta interessante l’efficacia dell’uso di un
 linguaggio di programmazione come il Python, anche se alcune
 modalità di ricerca nei corpora risultano ancora acerbe e male
 adattate in italiano (ad esempio la ricerca dalle parole forti).




                           Alessia Pierfederici e Mariagiovanna Scarale,
                           Linguistica Italiana II a.a. 2012/2013          100
3. UN ESPERIMENTO DI STATISTICA LESSICALE




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013          101
3. UN ESPERIMENTO DI STATISTICA LESSICALE




                    Alessia Pierfederici e Mariagiovanna Scarale,
                    Linguistica Italiana II a.a. 2012/2013          102
4. ANALISI DI UN FENOMENO
    NEL PARLATO E NELLO
          SCRITTO




        Alessia Pierfederici e Mariagiovanna Scarale,
        Linguistica Italiana II a.a. 2012/2013          103
4. ANALISI DI UN FENOMENO

                   OGGETTO DELL’ANALISI

  Per prima cosa abbiamo individuato il fenomeno linguistico che ci
  interessava analizzare all’interno dei corpus.

  Abbiamo scelto di analizzare il fenomeno di:

                 “quello che è” (“quelli che sono”)

  utilizzato come RIEMPITIVO all’interno della frase.

  Il fenomeno è classificabile come tratto dell’italiano neostandard o
  substandard.


                                         Alessia Pierfederici e Mariagiovanna Scarale,
                                         Linguistica Italiana II a.a. 2012/2013          104
4. ANALISI DI UN FENOMENO

                     CAMPIONE D’ANALISI


 Abbiamo deciso di analizzare il fenomeno sia all’interno della
 dimensione dell’italiano scritto (attraverso l’interrogazione di corpora
 giornalistici) che nella forma parlata.


 Per fare questo ci siamo serviti di due strumenti di analisi che andremo
 adesso a presentare.




                                           Alessia Pierfederici e Mariagiovanna Scarale,
                                           Linguistica Italiana II a.a. 2012/2013          105
4. ANALISI DI UN FENOMENO


                    ANALISI DEL PARLATO


 Per l’analisi del parlato abbiamo utilizzato la risorsa del BADIP (Banca
 dati dello italiano parlato), creata e gestita dall’Università di Graz.


 All’interno del database si trovano comunicazioni orali ottenute delle
 situazioni comunicative più disparate. Comunicazioni a casa, sul luogo
 di lavoro e nelle scuole, ma anche telefonate, interviste, convegni,
 assemblee studentesche, trasmissioni televisive e radiofoniche.


                   URL: http://badip.uni-graz.at/




                                          Alessia Pierfederici e Mariagiovanna Scarale,
                                          Linguistica Italiana II a.a. 2012/2013          106
4. ANALISI DI UN FENOMENO

  L’interfaccia grafica con cui l’utente si viene a relazionare appare
  gradevole e di chiara comprensione.




                                        Alessia Pierfederici e Mariagiovanna Scarale,
                                        Linguistica Italiana II a.a. 2012/2013          107
4. ANALISI DI UN FENOMENO

                          RISULTATI



                    Totale      Riempitivo                 Percentuale
                  occorrenze
 Quello che è         0               -                             -

Quelli che sono      28               19                        67,8%




                                   Alessia Pierfederici e Mariagiovanna Scarale,
                                   Linguistica Italiana II a.a. 2012/2013          108
4. ANALISI DI UN FENOMENO


Provenienza dei parlanti:
  47% Milano (Nel campione sono presenti le città di Firenze, Napoli,
  Roma e Milano).


Tipologie di comunicazioni:
 41,1% scambio comunicativo unidirezionale in presenza del/i
  destinatario/i (es. lezioni universitarie, comizi politici, arringhe
  giudiziarie).
 41,1% scambio comunicativo unidirezionale o bidirezionale a distanza
  o differito su testo non scritto (es. trasmissione televisiva o
  radiofonica).
 17,8% scambio comunicativo bidirezionale con presa di parola non
  libera faccia a faccia (es. assemblee, dibattiti, esami universitari).

                                         Alessia Pierfederici e Mariagiovanna Scarale,
                                         Linguistica Italiana II a.a. 2012/2013          109
4. ANALISI DI UN FENOMENO

                    ANALISI DELLO SCRITTO


  Per quanto riguarda la ricerca del fenomeno nella sua dimensione
  scritta, abbiamo utilizzato una risorsa nata nel contesto degli studi
  linguistici dell’Università di Bologna, risalente al 2011:


  Il corpus CORIS (Corpus di italiano scritto), a cui sono stati applicati
  gli appositi filtri per consentire una ricerca mirata ai soli articoli di
  quotidiani.


       URL della risorsa: http://corpora.dslo.unibo.it/TCORIS/




                                           Alessia Pierfederici e Mariagiovanna Scarale,
                                           Linguistica Italiana II a.a. 2012/2013          110
4. ANALISI DI UN FENOMENO

  L’interfaccia grafica appare anche qui “amichevole” e si presta ad
  interrogazioni da parte di varie tipologie di utenti .




                                       Alessia Pierfederici e Mariagiovanna Scarale,
                                       Linguistica Italiana II a.a. 2012/2013          111
4. ANALISI DI UN FENOMENO

                           RISULTATI



                    Totale       Riempitivo                 Percentuale
                  occorrenze
 Quello che è        471               16                         3,4%

Quelli che sono      94                14                        14,9%




                                    Alessia Pierfederici e Mariagiovanna Scarale,
                                    Linguistica Italiana II a.a. 2012/2013          112
Alessia Pierfederici – Mariagiovanna Scarale




GRAZIE PER LA VOSTRA
    ATTENZIONE



   Seminario di Linguistica italiana II (prof. Mirko Tavoni),
                           a.a. 2012/2013

Más contenido relacionado

Similar a Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Flavia Giannoli
 
La comunicazione non verbale: Nord e Sud Italia a confronto
La comunicazione non verbale: Nord e Sud Italia a confrontoLa comunicazione non verbale: Nord e Sud Italia a confronto
La comunicazione non verbale: Nord e Sud Italia a confrontoStefania Menici
 
Progetto unità d'italia classi terze scuola primari di lanzara
Progetto unità d'italia classi terze scuola primari di lanzaraProgetto unità d'italia classi terze scuola primari di lanzara
Progetto unità d'italia classi terze scuola primari di lanzaraStefania Schiavi
 
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...Portale Autismo
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedicoimartini
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedicoimartini
 
Valutazione trattamento logopedico c
Valutazione trattamento logopedico cValutazione trattamento logopedico c
Valutazione trattamento logopedico cimartini
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedicoimartini
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedicoimartini
 
Valutazione trattamento logopedico v
Valutazione trattamento logopedico vValutazione trattamento logopedico v
Valutazione trattamento logopedico vimartini
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedicoimartini
 
La sordità e le tappe dello sviluppo-1
La sordità e le tappe dello sviluppo-1La sordità e le tappe dello sviluppo-1
La sordità e le tappe dello sviluppo-1Chayn Italia
 
Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014OssCom
 
Le parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoLe parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoGiovanni Barbieri
 
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...Istituto nazionale di statistica
 
2012 mmpi rf adatt ita-stralcio
2012 mmpi rf adatt ita-stralcio2012 mmpi rf adatt ita-stralcio
2012 mmpi rf adatt ita-stralciosergio27montiel
 
INVALSI SNV I compiti a.s. 2010/2011
INVALSI SNV I compiti a.s. 2010/2011INVALSI SNV I compiti a.s. 2010/2011
INVALSI SNV I compiti a.s. 2010/2011jamboo
 
INVALSI SNV I Compiti as 2010/2011
INVALSI SNV I Compiti as 2010/2011INVALSI SNV I Compiti as 2010/2011
INVALSI SNV I Compiti as 2010/2011jamboo
 

Similar a Strumenti statistici per l'analisi della distribuzione dei fatti linguistici (20)

Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010
 
La comunicazione non verbale: Nord e Sud Italia a confronto
La comunicazione non verbale: Nord e Sud Italia a confrontoLa comunicazione non verbale: Nord e Sud Italia a confronto
La comunicazione non verbale: Nord e Sud Italia a confronto
 
Progetto unità d'italia classi terze scuola primari di lanzara
Progetto unità d'italia classi terze scuola primari di lanzaraProgetto unità d'italia classi terze scuola primari di lanzara
Progetto unità d'italia classi terze scuola primari di lanzara
 
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...
DAL GESTO ALLA PAROLA: LO SVILUPPO COMUNICATIVO NEI DISTURBI DELLO SPETTRO AU...
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedico
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedico
 
Valutazione trattamento logopedico c
Valutazione trattamento logopedico cValutazione trattamento logopedico c
Valutazione trattamento logopedico c
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedico
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedico
 
Valutazione trattamento logopedico v
Valutazione trattamento logopedico vValutazione trattamento logopedico v
Valutazione trattamento logopedico v
 
Valutazione trattamento logopedico
Valutazione trattamento logopedicoValutazione trattamento logopedico
Valutazione trattamento logopedico
 
La sordità e le tappe dello sviluppo-1
La sordità e le tappe dello sviluppo-1La sordità e le tappe dello sviluppo-1
La sordità e le tappe dello sviluppo-1
 
Slide colzani
Slide colzaniSlide colzani
Slide colzani
 
Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014
 
Orientamento2015
Orientamento2015Orientamento2015
Orientamento2015
 
Le parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoLe parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondo
 
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...
N. Barban, C. Conti, D. Gabrielli, G. Gabrielli, A. Guarneri: I nuovi italian...
 
2012 mmpi rf adatt ita-stralcio
2012 mmpi rf adatt ita-stralcio2012 mmpi rf adatt ita-stralcio
2012 mmpi rf adatt ita-stralcio
 
INVALSI SNV I compiti a.s. 2010/2011
INVALSI SNV I compiti a.s. 2010/2011INVALSI SNV I compiti a.s. 2010/2011
INVALSI SNV I compiti a.s. 2010/2011
 
INVALSI SNV I Compiti as 2010/2011
INVALSI SNV I Compiti as 2010/2011INVALSI SNV I Compiti as 2010/2011
INVALSI SNV I Compiti as 2010/2011
 

Más de Mariagiovanna Scarale

Web Mining e analisi di reti sociali
Web Mining e analisi di reti socialiWeb Mining e analisi di reti sociali
Web Mining e analisi di reti socialiMariagiovanna Scarale
 
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...Mariagiovanna Scarale
 
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéL'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéMariagiovanna Scarale
 
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEIL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEMariagiovanna Scarale
 
Hanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGHanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGMariagiovanna Scarale
 
VISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleVISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleMariagiovanna Scarale
 

Más de Mariagiovanna Scarale (13)

Web Mining e analisi di reti sociali
Web Mining e analisi di reti socialiWeb Mining e analisi di reti sociali
Web Mining e analisi di reti sociali
 
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...
Analisi della blogosfera italiana e analisi statistica dei corpora dei blog g...
 
Analisi del fenomeno dei blog
Analisi del fenomeno dei blogAnalisi del fenomeno dei blog
Analisi del fenomeno dei blog
 
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéL'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
 
Valutazione dell'Accessibilità
Valutazione dell'AccessibilitàValutazione dell'Accessibilità
Valutazione dell'Accessibilità
 
Valutazione dell'usabilità
Valutazione dell'usabilità Valutazione dell'usabilità
Valutazione dell'usabilità
 
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
 
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
 
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
 
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEIL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
 
Hanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGHanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMING
 
Tra filologia e programmazione
Tra filologia e programmazioneTra filologia e programmazione
Tra filologia e programmazione
 
VISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleVISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna Scarale
 

Último

Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativovaleriodinoia35
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 

Último (9)

Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativo
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 

Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

  • 1. Alessia Pierfederici – Mariagiovanna Scarale STRUMENTI STATISTICI PER L’ANALISI DELLA DISTRIBUZIONE DEI FATTI LINGUISTICI Seminario di Linguistica italiana II (prof. Mirko Tavoni), a.a. 2012/2013
  • 2. SOMMARIO Preliminari; Nozioni di Statistica; Un esperimento di statistica lessicale: le opere di Alessandro Baricco; Analisi di un fenomeno nello scritto e nel parlato; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 2
  • 3. 1. PRELIMINARI Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 3
  • 4. 1. PRELIMINARI Manlio Cortelazzo, Arjuna Tuzzi, Metodi statistici applicati all’italiano, Zanichelli, Bologna, 2008. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 4
  • 5. 1. PRELIMINARI Lo studio della lingua è sempre stato visto, nel corso dei decenni, come uno studio prevalentemente qualitativo. Accanto a questo tipo di considerazione non bisogna sottovalutare che fin dagli antichi Greci era presente l’idea di uno studio quantitativo, basato sul confronto numerico delle parole (hapax legoménon). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 5
  • 6. 1. PRELIMINARI L’analisi quantitativa, però, non può prescindere dall’analisi qualitativa. Per compiere uno studio accurato e, soprattutto, veritiero, occorre sempre creare delle fondamenta qualitative, su cui poggeranno poi le inferenze quantitative e i relativi risultati statistici. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 6
  • 7. 1. PRELIMINARI Le indagini di cui si occupa la Statistica prendono campo attorno ai fenomeni collettivi e di massa (misurabili, quindi, mediante molteplici osservazioni). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 7
  • 8. 1. PRELIMINARI Sono state molte le critiche mosse nei confronti dei linguisti che hanno cercato un approccio statistico nei loro studi e molti sono stati i dubbi avanzati circa l’utilità delle applicazioni statistiche ai fenomeni linguistici, che sono visti: - di natura qualitativa; - liberi, e quindi lontani dal «determinismo» statistico; - caratterizzati da accidenti originali e diversi gli uni dagli altri; - complessi; - raggiungibili, nell’aspetto numerico, solo grazie a vasti e imponenti studi preliminari. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 8
  • 9. 1. PRELIMINARI A questa serie di obiezioni si può contrapporre l’affermazione di Guiraud che sostiene, al contrario, che « l a l i n g u i s t i c a è l a s c i e n z a s t a t i s t i c a t i p o, gli statistici lo sanno bene; la mag gior parte dei linguisti ancora lo ignora». (Tratto da Problèmes et méthodes de la statistique linguistique, Presses Universitaires de France, Paris, p.15) Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 9
  • 10. 1. PRELIMINARI LA STATISTICA «Strumento per la descrizione di uno Stato in tutte le sue parti» (Bernardoni, 1812). La statistica per anni ha avuto un ruolo di supporto nei processi decisionali nell’ambito della pianificazione economica e dell’azione politica dello Stato. Solo di recente è diventata parte integrante dei processi produttivi e strumento di ricerca di molte discipline scientifiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 10
  • 11. 1. PRELIMINARI LA STATISTICA STATISTICA STATISTICA DESCRITTIVA INFERENZIALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 11
  • 12. 1. PRELIMINARI LA STATISTICA DESCRITTIVA Analizza i dati raccolti per offrire un quadro generale, una sorta di «osservazione da vicino» del campione o della popolazione presi in esame. Prende in considerazione gli aspetti di organizzazione, presentazione (es. tabelle e grafici) e compendio dei dati; vi fanno parte le statistiche anagrafiche e demografiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 12
  • 13. 1. PRELIMINARI LA STATISTICA INFERENZIALE Nell’ottica inferenziale sono proposti metodi di raccolta per accumulare informazioni su un insieme (campione) ridotto di osservazioni (unità statistiche) e le sintesi per descrivere questo insieme o per inferire caratteristiche degli insiemi più vasti e generali ai quali questo insieme appartiene (popolazione o universo statistico). Attraverso l’analisi dei dati raccolti stima il livello di alcune variabili nella popolazione di riferimento, verifica la significatività di alcune associazioni ecc. Si occupa, in sostanza, di come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 13
  • 14. 1. PRELIMINARI La statistica moderna opera prevalentemente in condizioni di incertezza, privilegiando l’interesse per i fenomeni che presentano una composizione stocasica, cioè probabilistica. «Nella misura in cui le leg gi della matematica si riferiscono alla realtà, esse non sono certe; e nella misura in cui sono certe, esse non si riferiscono alla realtà.» ( A . E i n s t e i n , Tr a t t o d a S i d e l i g h t s o n R e l a t i v i t y ) Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 14
  • 15. 1. PRELIMINARI È impossibile rilevare statisticamente TUTTE le manifestazioni di un fenomeno ( a meno che non si tratti di un fenomeno limitato e circostanziale), quindi l’universo o popolazione (considerando la statistica demografica per esempio). Per questo motivo bisogna effettuare un’accurata selezione dei dati rappresentativi di questo universo, delimitando un campione specifico, ma allo stesso tempo variegato. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 15
  • 16. 1. PRELIMINARI La lingua (langue de saussuriana), che è il sistema di segni che formano il codice di un idioma, cioè la parola concreta di una lingua (De Saussure, Cours de Linguistique Générale, 1916), è un universo statistico e quindi, dal punto quantitativo sembra irraggiungibile. Per procedere con uno studio su di essa occorre, quindi, elaborare un’indispensabile scelta campionaria. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 16
  • 17. 1. PRELIMINARI I campioni linguistici possono essere di due tipi:  dell’intera lingua della comunità;  della lingua del singolo utente; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 17
  • 18. 1. PRELIMINARI Campioni di Langue e Parole secondo De Saussure: UNIVERSO CAMPIONE LINGUA Langue CAMPIONE DI Langue Parola 1 Parola 2 Parola 5 Parole CAMPIONE DI Parole Parola 3 Parola 4 … Parola N Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 18
  • 19. 1. PRELIMINARI La STATISTICA LINGUISTICA ha come obiettivo primario quello di spiegare i fatti linguistici servendosi delle tecniche e degli strumenti matematici della Statistica. Per realizzare questo obiettivo, lo scopo dei linguisti è quello di raccogliere in modo accurato i campioni, affinché i risultati dedotti corrispondano a verità e rispecchino le tendenze degli universi ai quali appartengono. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 19
  • 20. 2. NOZIONI DI STATISTICA Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 20
  • 21. 2. NOZIONI DI STATISTICA LE VARIABILI Per rilevare i caratteri di interesse dalle unità statistiche occorre servirsi di contenitori dette variabili.  QUALITATIVA: ha un numero finito di modalità, o categorie (ad esempio, la variabile genere ha solo 2 valori, che sono maschio o femmina, che possono essere resi in statistica, come 0 ed 1);  ORDINALE: ha un numero finito di modalità, sulle quali è stabilito un criterio di ordinamento (ad esempio, la variabile titolo di studio ha 5 modalità tra loro ordinabili e cioè: elementare, medio, superiore, laurea, laurea magistrale);  QUANTITATIVA: può avere un numero potenzialmente infinito di valori e può essere dotata di un’unità di misura (ad esempio la variabile peso in Kg). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 21
  • 22. 2. NOZIONI DI STATISTICA LA MEDIA ARITMETICA (M) Per applicare a un universo o popolazione i risultati raggiunti mediante uno studio su un campione, uno strumento fondamentale è la media. 𝑥1+𝑥2+⋯+𝑥𝑛 M= Ovvero: 𝑛 La somma di tutte le 𝑛 osservazioni (x) divisa il 𝑖=1 𝑥𝑖 1 𝑛 M= = 𝑖=1 𝑥𝑖 loro numero (n) 𝑛 𝑛 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 22
  • 23. 2. NOZIONI DI STATISTICA LA MEDIA ARITMETICA La media costituisce la tendenza centrale della distribuzione di un insieme di dati. Quando si parla di un campione, si usa il termine MEDIA CAMPIONARIA. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 23
  • 24. 2. NOZIONI DI STATISTICA Un esempio: In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte: Tragedia I II III IV V VI VII VIII IX Occorrenze 10 11 13 15 16 18 18 19 23 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 24
  • 25. 2. NOZIONI DI STATISTICA 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Sembrerebbe un risultato accettabile e logicamente corretto, ma non è così!!! In questo caso la Media ha uno scarso significato, perché:  è riferita a componimenti di diversa lunghezza (quindi sarebbe preferibile il calcolo percentuale);  Avremmo avuto lo stesso risultato con una serie qualunque di numeri che sommati dessero 143. In questo modo, quindi, si perde di vista l’obiettivo primario , cioè l’Opera presa in esame. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 25
  • 26. 2. NOZIONI DI STATISTICA Il concetto di Media ha un valore relativo dal punto di vista scientifico. Un altro esempio: Se contiamo i versi di 12 canti della Divina Commedia (4 per cantica: il VII, il VIV, il XXI e il XXVIII) si ottiene una media per canto di 141 versi 𝑥1+𝑥2+⋯+𝑥𝑛 1692 M= = = 141 𝑛 12 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 26
  • 27. 2. NOZIONI DI STATISTICA Tabella 1 Tabella 2 n Cantica Canto Versi n Cantica Canto Versi 1 Inferno VII 130 1 Inferno VIII 130 2 Inferno XIV 142 2 Inferno XVI 136 3 Inferno XXI 139 3 Inferno XXIV 151 4 Inferno XXVIII 142 4 Inferno XXXII 139 5 Purgatorio VII 136 5 Purgatorio VIII 139 6 Purgatorio XIV 151 6 Purgatorio XVI 145 7 Purgatorio XXI 136 7 Purgatorio XXIV 154 8 Purgatorio XXVIII 148 8 Purgatorio XXXII 160 9 Paradiso VII 148 9 Paradiso VIII 148 10 Paradiso XIV 139 10 Paradiso XVI 154 11 Paradiso XXI 142 11 Paradiso XXIV 154 12 Paradiso XXVIII 139 12 Paradiso XXXII 151 1692 1761 M1= 141 M2= 146,75 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 27
  • 28. 2. NOZIONI DI STATISTICA In questo caso particolare, lo scarto tra le medie dei due diversi campioni è piccolo, quindi, in teoria, se si moltiplica il primo e il secondo risultato per il numero di versi del canto, si dovrebbe ottenere il totale, approssimato, dei versi di tutta l’Opera. Versi1= 141 × 100 = 14.100 Versi2= 146,75 × 100 = 14.675 La Divina Commedia conta complessivamente 14.233 versi. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 28
  • 29. 2. NOZIONI DI STATISTICA Esistono casi in cui le valutazioni comprendono elementi non del tutto regolari. In questi casi l’uso della Media da dei risultati errati e di molto lontani da quelli reali. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 29
  • 30. 2. NOZIONI DI STATISTICA Analizzando due campioni diversi dell’Orlando Furioso (che presenta scarti molto forti tra un canto e l’altro), si verifica proprio questo: La Media falsa i risultati. Tabella Tabella 1 2 n Canto Versi n Canto Versi 1 VI 648 1 I 648 2 XII 752 2 VII 640 3 XVIII 1536 3 XIV 1008 4 XXIV 920 4 XXIV 576 5 XXX 760 5 XXVIII 816 6 XXXVI 672 6 XXXV 640 7 XLII 832 7 XLII 832 6120 5160 M1= 874,29 M2= 737 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 30
  • 31. 2. NOZIONI DI STATISTICA Procedendo parallelamente, come si è fatto nell’esempio precedente della Divina Commedia, si ottiene: Versi1= 874,29 × 46 = 40.217 Versi2= 737,14 × 46 = 33.909 L’Orlando Furioso conta complessivamente 38.672 versi. Quindi ENTRAMBI i risultati sono errati, perché troppo distanti dai valori reali. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 31
  • 32. 2. NOZIONI DI STATISTICA LA MEDIANA (m) Rappresenta la misura della tendenza centrale della sequenza ordinata dei valori presi in esame. Divide le osservazioni in due parti. Se il numero di osservazioni è dispari, la mediana occupa il valore centrale, se è pari, è rappresentata dalla media dei due valori centrali. Tragedia I II III IV V VI VII VIII IX Occorrenze 10 11 13 15 16 18 18 19 23 Tragedia I II III IV V VI VII VIII IX X Occorrenze 10 11 13 15 16 18 18 19 23 30 16 + 18 𝑀= = 17 2 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 32
  • 33. 2. NOZIONI DI STATISTICA Se M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica a sinistra (Skewness negativa); Se M > m c’è un accumulo verso il basso e la distribuzione è asimmetrica a a destra (Skewness positiva); Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 33
  • 34. 2. NOZIONI DI STATISTICA LA MODA Rappresenta la misura della tendenza dei valori ed è il valore più frequente di una distribuzione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 34
  • 35. 2. NOZIONI DI STATISTICA LA MEDIA PONDERATA (Mp) Si usa quando è fissato un sistema di pesi che danno diversa importanza alle osservazioni. È il metodo usato per la media dei voti registrati su un libretto universitario (il peso in quel caso sono i crediti dell’esame da valutare). Nella somma il valore di ogni unità statistica viene moltiplicato per il proprio peso e tutto viene diviso per la somma dei pesi. 𝑛 𝑖 =1 𝑥𝑖 × 𝑝𝑖 Mp = 𝑛 𝑖 =1 𝑝𝑖 La Media aritmetica è un caso di Mp in cui tutti i pesi sono uguali ad 1. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 35
  • 36. 2. NOZIONI DI STATISTICA La Media Ponderata è molto utile in linguistica per lo studio della distribuzione di frequenza di un dato fenomeno in un corpus. 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 Mp = 𝑛 𝑖 =1 𝑓𝑖 Con xi che rappresenta la lunghezza dei caratteri (quindi il peso che i fenomeni analizzati posseggono) e fi che rappresenta la frequenza dei fenomeni (delle preposizioni nell’esempio che segue) che si vogliono analizzare nel corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 36
  • 37. 2. NOZIONI DI STATISTICA Con questo metodo è stato possibile analizzare, per esempio, la distribuzione di frequenza di alcune preposizioni in 7 discorsi di fine anno del Presidente Ciampi. 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 Mp = 𝑛 𝑖 =1 𝑓𝑖 Sempre con xi che rappresenta la lunghezza dei caratteri (quindi il peso che i fenomeni analizzati posseggono) e fi che rappresenta la frequenza delle preposizioni (o dei fenomeni in genere) nel corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 37
  • 38. 2. NOZIONI DI STATISTICA n Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1) 1 di 2 996 1992 2 a 1 397 397 3 in 2 382 764 4 per 3 177 531 5 con 3 127 381 6 da 2 107 214 7 su 2 60 120 8 fra 3 32 96 9 tra 3 21 63 10 verso 5 10 50 11 senza 5 6 30 12 contro 6 5 30 13 dopo 4 5 20 14 oltre 5 5 25 15 attraverso 10 4 40 16 prima (di) 5 3 15 17 più 3 3 9 18 fuori 5 3 15 19 fino 4 2 8 20 durante 7 2 14 21 dentro 6 2 12 22 sino 4 2 8 23 sotto 5 1 5 24 lontano (da) 7 1 7 25 entro 5 1 5 107 2354 4851 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 38
  • 39. 2. NOZIONI DI STATISTICA Applicando la formula: 𝑛 𝑖 =1 𝑥𝑖 × 𝑓𝑖 4851 Mp = 𝑛 = = 2,06 𝑖 =1 𝑓𝑖 2354 Si deduce che nel corpus analizzato le proposizioni più frequenti sono quelle che hanno, in media, una lunghezza di 2,06 caratteri. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 39
  • 40. 2. NOZIONI DI STATISTICA LO SCARTO TIPO (s) O DEVIAZIONE STANDARD Si usa per valutare quanto determinati valori si discostano dalla media, per stabilire, cioè, la loro variazione. 𝑛 𝑖=1(𝑥𝑖 − 𝑀)2 s= 𝑛−1 Cioè: la radice quadrata della sommatoria di ogni singolo valore (x) meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità (n) del campione meno 1. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 40
  • 41. 2. NOZIONI DI STATISTICA Cioè: la radice quadrata della sommatoria di ogni singolo valore (x) meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità (n) del campione meno 1. 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 s= 𝑛−1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 41
  • 42. 2. NOZIONI DI STATISTICA La deviazione standard o scarto tipo o scarto quadratico medio è un indice di dispersione (vale a dire una misura di variabilità di una popolazione o di una variabile casuale) derivato direttamente dalla varianza (𝒔 𝟐 ). Ha la stessa unità di misura dei valori osservati (mentre la varianza ha come unità di misura il quadrato dell'unità di misura dei valori di riferimento) e misura la dispersione dei dati intorno al valore atteso (M). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 42
  • 43. 2. NOZIONI DI STATISTICA Ricapitolando: Si divide la somma dei quadrati degli scarti (x-M)2 per il numero di osservazioni meno 1 (n - 1). Da questa divisione si ottiene la VARIANZA CAMPIONARIA (𝑠 2 ) . 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 𝑠2 = 𝑛−1 Estraendone la radice quadrata, invece, si ottiene lo SCARTO TIPO CAMPIONARIO o DEVIAZIONE STANDARD(s). 𝑛 − 𝑀)2 𝑖=1(𝑥𝑖 s= 𝑛−1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 43
  • 44. 2. NOZIONI DI STATISTICA Un esempio: Valutazione in trentesimi riportata da un campione di 10 studenti. Scarto dalla Quadrato degli studente voto (x) voto medio (M) media (x-M) scarti (x-M) 𝟐 1 22 26 -4 16 2 23 26 -3 9 3 24 26 -2 4 4 26 26 0 0 5 26 26 0 0 6 27 26 1 1 7 27 26 1 1 8 27 26 1 1 9 28 26 2 4 10 30 26 4 16 260 0 52 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 44
  • 45. 2. NOZIONI DI STATISTICA Varianza Campionaria 𝑛 𝑖=1(𝑥𝑖 −𝑀)2 52 𝑠2 = 𝑛−1 = 9 = 5,77 Scarto Tipo Campionario 𝑛 2 𝑖=1(𝑥𝑖−𝑀) 52 s= = = 2,40 𝑛−1 9 Il 2,40 degli studenti ha ottenuto un voto che rientra nella media dei voti del campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 45
  • 46. 2. NOZIONI DI STATISTICA Questa tecnica può essere usata anche per comparare diversi campioni e quindi può essere molto utile in campo linguistico per la comparazione di più corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 46
  • 47. 2. NOZIONI DI STATISTICA Tornando ad uno dei primi esempi: In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte: Tragedia I II III IV V VI VII VIII IX Occorrenze 10 11 13 15 16 18 18 19 23 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= 𝑛 = 9 = 15,89 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 47
  • 48. 2. NOZIONI DI STATISTICA Scarto dalla Quadrato degli tragedia frequenza (x) media (M) media (x-M) scarti (x-M) 𝟐 1 10 16 -6 36 2 11 16 -5 25 3 13 16 -3 9 4 15 16 -1 1 5 16 16 0 0 6 18 16 2 4 7 18 16 2 4 8 19 16 3 9 9 23 16 7 49 143 0 137 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 48
  • 49. 2. NOZIONI DI STATISTICA 𝑥1+𝑥2+⋯+𝑥𝑛 143 M= = ≈ 16 𝑛 9 𝑛 2 𝑖=1(𝑥𝑖−𝑀) 137 s= = ≈4 𝑛−1 8 La differenza tra il risultato che si ottiene (quello effettivo) e quello teorico (media) è pari a 4. In ogni tragedia, rispetto alla media, il numero di heureux si può discostare mediamente di 4 rispetto alla media(ha una probabile variabilità pari a 4). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 49
  • 50. 2. NOZIONI DI STATISTICA I QUANTILI Per la descrizione della distribuzione di un fenomeno quantitativo e ordinabile è possibile usare i Quantili, che permettono la ripartizione della distribuzione in parti uguali. • QUARTILI; • DECILI; • PERCENTILI; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 50
  • 51. 2. NOZIONI DI STATISTICA I QUARTILI OUTLIERS OUTLIERS Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 51
  • 52. 2. NOZIONI DI STATISTICA I DECILI Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 52
  • 53. 2. NOZIONI DI STATISTICA I PERCENTILI III Quartile II Quartile o Mediana I Quartile Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 53
  • 54. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE • FREQUENZA ASSOLUTA (𝒇 𝒂 ): numero di occorrenze nel corpus; • FREQUENZA RELATIVA (𝒇 𝒓 ): si ha con il quoziente ottenuto dividendo 𝑓𝑎 per il numero n di osservazioni; • FREQUENZA PERCENTUALE (𝒇 𝒑 ): ottenuta con la moltiplicazione per 100 di 𝑓𝑟. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 54
  • 55. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE Frequenza Assoluta 𝒇 𝒂 = conteggio delle occorrenze; 𝑓𝑎 Frequenza Relativa 𝒇 𝒓= 𝑛 Frequenza Percentuale 𝒇 𝒑 = 𝑓𝑟 × 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 55
  • 56. 2. NOZIONI DI STATISTICA TABELLA DI FREQUENZE Un esempio: Distribuzione per categorie grammaticali delle occorrenze nei 7 discorsi di Ciampi. n n(x) 𝒇𝒂 𝒇𝒓 𝒇𝒑 1 aggettivi 1762 0,14 14 2 avverbi 571 0,05 5 3 congiunzioni 628 0,05 5 4 articoli 1210 0,1 10 5 nomi 3187 0,25 25 6 preposizioni 2354 0,19 19 7 pronomi 767 0,06 6 8 verbi 1912 0,15 15 altro (nomi propri, 9 esclamazioni…) 178 0,01 1 260 12569 1 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 56
  • 57. 2. NOZIONI DI STATISTICA COEFFICIENTE DI VARIAZIONE Permette di confrontare misure e fenomeni con unità di misura differenti. È un INDICE DI PRECISIONE di una misura. Due Scarti Tipo possono essere confrontati direttamente fra loro se:  sono espressi nella stessa unità di misura;  l’ordine di grandezza o dimensione della media è simile; Negli altri casi occorre semplicemente calcolare il rapporto tra lo Scarto Tipo (s) e la Media (M). Il quoziente ottenuto è il Coefficiente di variazione (v): 𝑠 v = 𝑀 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 57
  • 58. 2. NOZIONI DI STATISTICA Esempio: 𝑀1 = 8,0 𝑀2 = 5,0 𝑠1 = 2,28 𝑠2 = 1,6 2,28 1,6 𝑣1 = = 0,28 𝑣2 = = 0,32 8,0 5,0 𝑣1 0,28 𝑣1,2 = = = 0,88 = 88% 𝑣2 0,32 Come proporzione: 𝑣1,2 𝑣1 : 𝑣2 = 88: 100 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 58
  • 59. 2. NOZIONI DI STATISTICA PUNTEGGIO Z (O SCARTO RIDOTTO) Il punteggio z è il quoziente fra lo scarto dalla media e lo scarto tipo, serve a misurare di quanti “scarti tipo” un valore osservato dista dalla media. Lo scarto ridotto è importante perché permette di valutare se le variazioni dalla media siano aleatorie o significativamente distanti. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 59
  • 60. 2. NOZIONI DI STATISTICA Per riconoscere quali valori sono da considerare significativi si può applicare la seguente regola empirica: - I punteggi z compresi nell’intervallo (-2, +2 ) NON sono significativi; - I punteggi superiori a 2 o inferiori a -2 sono considerabili insoliti; - I punteggi superiori a 3 o inferiori a -3 possono essere considerati molto insoliti. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 60
  • 61. 2. NOZIONI DI STATISTICA LA STIMA INTERVALLARE La stima intervallare consiste nel calcolare, sulla base dei dati di un campione, un intervallo di valori per cui sia possibile dire che il valore di un parametro cada al suo interno. L’intervallo rappresenta dunque sia la stima del valore del parametro sia l’incertezza associata alla stima. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 61
  • 62. 2. NOZIONI DI STATISTICA ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA Ovvero: 𝑠 Lo scarto diviso per la 𝑒= radice quadrata della 𝑛 dimensione del campione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 62
  • 63. 2. NOZIONI DI STATISTICA TEST SU UN CAMPIONE Il test statistico è una procedura che utilizza una sintesi dei dati campionari per saggiare la validità di un’ipotesi su una caratteristica della popolazione. In statistica, l’ipotesi che si intende verificare prende il nome di ipotesi alternativa e si contrappone all’ipotesi nulla. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 63
  • 64. 2. NOZIONI DI STATISTICA Se il punteggio z presenta un valore assoluto inferiore a 2 si accetta l’ipotesi nulla con un valore di significatività del 95% Viceversa, l’ipotesi nulla verrà rifiutata a vantaggio dell’ipotesi alternativa. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 64
  • 65. 2. NOZIONI DI STATISTICA MODELLI TEORICI PER LE PROPORZIONI Finora abbiamo preso in considerazione lo scarto tipo di una distribuzione, ricorrendo a prove concrete, ma è importante anche poter confrontare i risultati così ottenuti con un modello teorico. Parleremo quindi, parallelamente allo scarto tipo campionario, di uno scarto tipo teorico. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 65
  • 66. 2. NOZIONI DI STATISTICA Questo comporta due possibilità: - uno scarto tipo campionario circa uguale allo scarto tipo teorico, in cui la distribuzione effettiva equivale a una distribuzione casuale; - uno scarto tipo superiore o inferiore allo scarto tipo teorico, in cui la distribuzione reale è stata condizionata da cause diverse, che potranno essere ricercate. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 66
  • 67. 2. NOZIONI DI STATISTICA Un esempio: Calcoliamo i due scarti tipo prendendo come scarto base una traduzione anonima in veneziano del I canto dell’Orlando furioso. Delle 4896 occorrenze totali del canto, 232 sono che e ch’. Probabilità d’apparizione di ch(e) nel testo: p = 232/4896 = 0,047 Perciò la possibilità che escano altre parole è: q = 1 – p = 0,953 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 67
  • 68. 2. NOZIONI DI STATISTICA Dividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognuno avente 204 parole). Il numero di ch(e) in ogni gruppo sarà dunque: nc = 204 × 0,047 = 9,588 Quindi, secondo la distribuzione Binomiale, il 95% delle osservazioni dovrebbe stare nell’intervallo da 4 a 16. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 68
  • 69. n numero di che ( x – y) (x-y) 𝟐 1 4 -5,667 32,111 2 4 -5,667 32,111 3 6 -3,667 13,444 4 6 -3,667 13,444 5 6 -3,667 13,444 6 7 -2,667 7,111 7 7 -2,667 7,111 8 8 -1,667 2,778 9 8 -1,667 2,778 10 9 -0,667 0,444 11 9 -0,667 0,444 12 9 -0,667 0,444 13 10 -0,333 0,111 14 10 -0,333 0,111 15 11 1,333 1,778 16 11 1,333 1,778 17 11 1,333 1,778 18 12 2,333 5,444 19 12 2,333 5,444 20 13 3,333 11,111 21 14 4,333 18,778 22 14 4,333 18,778 23 14 4,333 18,778 24 17 7,333 53,778 232 0 263,333 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 69
  • 70. 2. NOZIONI DI STATISTICA Essendo lo scarto tipo campionario solo leggermente superiore a quello teorico (determinato da un’estrazione aleatoria) dobbiamo concludere che l’uso del ch(e) da parte dell’anonimo scrittore veneziano sia del tutto regolare e non dettato da particolari scelte stilistiche. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 70
  • 71. 2. NOZIONI DI STATISTICA VALUTARE LA DIFFERENZA TRA CAMPIONI Spesso può risultare utile o necessario saggiare attraverso un test l’ipotesi di uguaglianza su due campioni indipendenti al fine di capire se questi provengano o meno dalla stessa popolazione. Applicando la solita regola empirica del punteggio z otterremo che, con valori superiori a 2 possiamo rifiutare l’ipotesi nulla (l’ipotesi nulla in questo caso è l’uguaglianza tra le due proporzioni, la derivazione unica). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 71
  • 72. 2. NOZIONI DI STATISTICA IL X² DI PEARSON Con il test di X² (o test di Pearson) è possibile misurare in probabilità lo scarto tra un modello teorico e un’osservazione sperimentale. Avremo la seguente formula: E’ uguale alla sommatoria (da 1 a 𝑘 k) del quadrato della differenza fra (𝑓𝑖 − 𝑓𝑖 ∗ )2 frequenta osservata e frequenza 𝑋2 = 𝑓𝑖 ∗ teorica, fratto la frequenza teorica. 𝑖=1 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 72
  • 73. 2. NOZIONI DI STATISTICA Un esempio: Osservato Teorico Scarto Quadrato Frazione dello scarto Fonema i 332 400 -68 4.624 11,56 Altri fonemi 3.538 3.470 +68 4.624 1,33 3.870 3.870 0 12,89 La frequenza del fonema «i» nelle poesie di Gozzano. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 73
  • 74. 2. NOZIONI DI STATISTICA L’ANALISI BIVARIATA DI VARIABILI QUALITATIVE Sulle osservazioni di un campione normalmente vengono rilevati più caratteri e uno degli scopi dell’analisi statistica è verificare l’esistenza di “relazioni” tra le variabili disponibili. Il caso più semplice è quello dell’analisi bivariata di caratteri qualitativi, cioè delle tecniche finalizzate a studiare il grado di associazione tra due variabili qualitative. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 74
  • 75. 2.NOZIONI DI STATISTICA INDICI DI CONNESSIONE L’indice di connessione lessicale corrisponde al rapporto tra la parte comune del vocabolario (o occorrenze) e il totale del vocabolario stesso. Per misurare il grado di connessione lessicale fra due testi è necessario che essi abbiamo all’incirca la stessa lunghezza. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 75
  • 76. 3.UN ESPERIMENTO DI STATISTICA LESSICALE: le opere di Alessandro Baricco Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 76
  • 77. 3. UN ESPERIMENTO DI STATISTICA LESSICALE PRIMI PASSI: 1. Scelta del testo e individuazione delle unità di analisi; 2. Media e dispersione; 3. Ricchezza lessicale; 4. Valutazione del lessico; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 77
  • 78. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 1. Scelta del testo e individuazione delle unità d’analisi: Specificare l’edizione del testo che verrà presa in analisi e tutti i meccanismi di inclusione o esclusione del testo adottati. Fornire quanta più chiarezza possibile ed obiettività, in modo da rendere ripetibile l’esperimento e non falsarlo. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 78
  • 79. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessandro Baricco • Castelli di rabbia, Milano, Rizzoli, 1991. ISBN 88-17-66039-6; • Oceano mare, Milano, Rizzoli, 1993. ISBN 88-17-66043-4; • Novecento. Un monologo, Milano, Feltrinelli, 1994. ISBN 88-07-81302-5; • Seta, Milano, Rizzoli, 1996. ISBN 88-17-66059-0; • City, Milano, Rizzoli, 1999. ISBN 88-17-86102-2; • Senza sangue, Milano, Rizzoli, 2002. ISBN 88-17-87017-X; • Mr Gwyn, Milano, Feltrinelli, 2011. ISBN 88-07-01862-4; • Tre volte all’alba, Milano, Feltrinelli, 2012. ISBN 88-07-01905-1; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 79
  • 80. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Software open source per il conteggio delle parole: http://text-analyzer.softonic.it/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 80
  • 81. 3. UN ESPERIMENTO DI STATISTICA LESSICALE NOVECENTO, UN MONOLOGO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 81
  • 82. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Si sono considerate le parole complessive delle opere in questione, quindi, sono state riportante anche eventuali ripetizioni e omografi. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 82
  • 83. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Percentuale di occorrenze e d’uso di ogni parola del corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 83
  • 84. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Lessemi che occorrono in forma concatenata in tutto il corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 84
  • 85. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Hapax: lessemi che occorrono una sola volta in tutto il corpus. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 85
  • 86. 3. UN ESPERIMENTO DI STATISTICA LESSICALE N= lunghezza del OPERA ANNO PAROLE (N) PAROLE DIVERSE (V) testo, cioè la somma totale delle frequenze Castelli di rabbia 1991 52.989 8.466 delle parole, anche se ripetute. I tempi Oceano mare 1993 47.395 7.461 composti e le Novecento 1994 12.041 2.755 locuzioni, però, sono considerati come Seta 1996 15.063 3.188 un’unica parola; City 1999 87.068 10.875 V= vocabolario, Senza sangue 2002 15.770 2.920 cioè il numero delle parole diverse nel Mr. Gwyn 2011 40.861 7.242 corpus in questione, Tre volte all'alba 2012 15.835 3.016 senza tener conto della frequenza; Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 86
  • 87. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 2. Calcolo della dispersione (R) del vocabolario (V): L= lessico. È la quantità indimostrata di parole che potenzialmente un individuo conosce; • Estensione: numero di parole di cui è composto; • Struttura: rapporto delle frequenze di queste parole; Ld= lessico disperso. Utilizza quante più possibili parole diverse; Lc= lessico concentrato. Riutilizza le stesse parole. È fatto di ripetizioni. Parole forti: hanno un significato autonomo dal contesto (es. sostantivi, aggettivi, verbi e avverbi); Parole deboli: parole che acquistano significato in base al contesto in cui si trovano (es. articoli, preposizioni, pronomi, congiunzioni ecc); Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 87
  • 88. 3. UN ESPERIMENTO DI STATISTICA LESSICALE R è l’indice di dispersione; C è l’indice di concentrazione; 𝑺𝒇 𝟓𝟎 è la somma delle frequenze delle prime 50 parole forti; N è il numero totale delle parole; Per tutte le parole Per le parole forti 𝑉 𝑉 𝑆𝑓50 𝑆𝑓50 𝑅𝑓 = 𝐶𝑓 = 𝑅= 𝐶= 2𝑁 𝑁 𝑁 2𝑁 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 88
  • 89. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Applicando la formula a Novecento di Baricco e analizzando tutte le parole, si ottiene, per esempio, come indice di dispersione: 𝑉 2.755 2.755 𝑅= = = = 25,10 𝑁 12.041 109,73 𝑉 2.755 2.755 𝑅𝑓 = 2𝑁 = 2 ×12.041 = 155,18 =17,75 R da come risultato la dispersione delle parole meno frequenti, che rappresentano però una misura della ricchezza del vocabolario dal quale sono tratte. È un fenomeno legato alla caratterizzazione del testo e dipende dalla misura del corpus. Empiricamente risulta che, per testi di dimensioni comprese tra 10000 e 50000 occorrenze, R vale circa 22 (Guiraud, P., Les caractères du vocabolaire. Essays de metodologie, Presses Universitaire de France, Paris, 1954 ). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 89
  • 90. 3. UN ESPERIMENTO DI STATISTICA LESSICALE L’indice di concentrazione, invece, sarà: 𝑆𝑓50 4.904 𝐶= = 12.041 = 0,40 𝑁 𝑆𝑓50 4.904 4.904 𝐶𝑓 = = 2 × 12.041 = 24.082 = 0,20 2× 𝑁 Cioè la concentrazione delle parole più frequenti, o tematiche è pari a 0,20. È un fenomeno legato all’argomento del testo e alla motivazione che lo origina. (Guiraud). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 90
  • 91. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 3. La ricchezza lessicale: L’indice di ricchezza lessicale RL si ottiene calcolando la differenza tra l’indice di dispersione R per ogni opera e la sua media totale MR. 𝑅𝐿 = 𝑅 − 𝑀𝑅 Si può valutare quanto questo indice (ricchezza lessicale RL) è superiore o inferiore alla media, con una semplice operazione: 𝑀𝑅 − 𝑅𝐿 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 91
  • 92. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Per studiare la ricercatezza del linguaggio 𝑹 𝟏 , invece: 𝑛 𝑖=1 𝑉1 𝑖 𝑅1 = 𝑛 𝑖=1 𝑉 Dove 𝑉1 sono gli hapax, ossia le parole che occorrono una sola volta Si usa come un indice di “ricercatezza del linguaggio” solitamente (ma non sempre) per confrontare testi di pari dimensioni. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 92
  • 93. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 4. La valutazione del lessico: Per stabilire l’entità del patrimonio linguistico del lessico, si usa, invece, la semplice proporzione, in cui l’incognita è rappresentata da Lx: MR : ML = R : Lx Lx sarà uguale alla media del lessico totale (35,86) di ogni opera moltiplicata per l’indice di dispersione dell’opera specifica da valutare, il tutto diviso per la media totale (ottenuta dagl’indici di dispersione di ogni opera). Per comodità il risultato viene ulteriormente diviso per 1000, in modo da ottenere un numero gestibile dal punto di vista statistico Il risultato sarà poi confrontato sia con la media della ricchezza lessicale MRL sia con la ricchezza lessicale RL . Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 93
  • 94. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Mettendo in pratica queste analisi per tutte le opere analizzate si otterranno i valori riportati nelle seguenti tabelle: OPERA ANNO PAROLE (N) PAROLE DIVERSE (V) Castelli di rabbia 1991 52.989 8.466 Oceano mare 1993 47.395 7.461 Novecento 1994 12.041 2.755 Seta 1996 15.063 3.188 City 1999 87.068 10.875 Senza sangue 2002 15.770 2.920 Mr. Gwyn 2011 40.861 7.242 Tre volte all'alba 2012 15.835 3.016 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 94
  • 95. 3. UN ESPERIMENTO DI STATISTICA LESSICALE RICCHEZZA LESSICALE RISPETTO RICERCATEZZA PAROLE DIVERSE DISPERSIONE DISPERSIONE MEDIA DI R ALLA MEDIA DEL PATRIMONIO OPERA ANNO PAROLE (N) (V) [R] [Rf] [MR] [RL] HAPAX LINGUAGGIO [R1] LINGUISTICO Castelli di rabbia 1991 52.989 8.466 36,78 26,01 30,25 6,52 4.979 3,14 43,614 Oceano mare 1993 47.395 7.461 34,27 24,23 4,02 4.298 3,57 40,642 Novecento 1994 12.041 2.755 25,11 17,75 -5,15 1.672 9,66 29,774 Seta 1996 15.063 3.188 25,98 18,37 -4,28 1.830 8,35 30,804 City 1999 87.068 10.875 36,86 26,06 6,60 5.950 2,45 43,706 Senza sangue 2002 15.770 2.920 23,25 16,44 -7,00 1.618 9,12 27,575 Mr. Gwyn 2011 40.861 7.242 35,83 25,33 5,57 4.541 3,68 42,486 Tre volte Alessia Pierfederici e Mariagiovanna Scarale, all'alba 2012 15.835 3.016 23,97 Linguistica Italiana II a.a. 2012/2013 16,95 -6,29 1.732 8,83 28,423 95
  • 96. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Applicando un metodo di astrazione e di inferenza superiore, possiamo considerare i corpus analizzati come un unico blocco, arrivando così alle conclusioni (ovviamente in questo caso si parlerà di medie e valori approssimati, dato che ognuno presenterà uno scarto che lo differenzierà dagli altri, e non di valori precisi). Strumento indispensabile per questo passo è un elaboratore di fogli elettronici, come Microsoft Excel (per Windows) o Open Office (per le altre piattaforme). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 96
  • 97. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 100.000 Il rapporto tra il 90.000 80.000 Lessico (N) e il 70.000 Vocabolario (V). 60.000 50.000 È evidenziato 40.000 30.000 PAROLE (N) l’andamento per ogni 20.000 PAROLE DIVERSE (V) opera (asse x). 10.000 0 100.000 L’andamento del 90.000 Vocabolario è 80.000 pressappoco costante 70.000 e non dipende, 60.000 PAROLE (N) apparentemente, 50.000 40.000 PAROLE DIVERSE (V) dall’andamento del 30.000 Lessico. 20.000 Le opere sono 10.000 sempre riportate 0 1 2 3 4 5 6 7 8 sull’asse x. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 97
  • 98. 3. UN ESPERIMENTO DI STATISTICA LESSICALE 40,00 35,00 Il rapporto tra 30,00 l’indice di 25,00 dispersione 20,00 DISPERSIONE [R] complessivo (R) e 15,00 DISPERSIONE [Rf] l’indice di 10,00 dispersione per le 5,00 parole forti (Rf). 0,00 È evidenziato 1 2 3 4 5 6 7 8 l’andamento per ogni opera (asse x). 40,00 35,00 30,00 Il rapporto l’indice di 25,00 dispersione Medio e MEDIA DI R [MR] 20,00 la ricchezza lessicale. RAPPORTO DI [RL] 15,00 CON LA MEDIA [MR] 10,00 5,00 0,00 1 2 3 4 5 6 7 8 Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 98
  • 99. 3. UN ESPERIMENTO DI STATISTICA LESSICALE HAPAX 7.000 6.000 5.000 La distribuzione di 4.000 frequenza degli hapax 3.000 HAPAX nelle opere. 2.000 1.000 0 1 2 3 4 5 6 7 8 Distribuzione del Patrimonio Linguistico negli anni 50000 Patrimonio Linguistico 45000 40000 35000 La distribuzione del 30000 25000 patrimonio 20000 15000 linguistico dell’autore 10000 nel corso degli anni. 5000 0 1 2 3 4 5 6 7 8 ANNO 1991 1993 1994 1996 1999 2002 2011 2012 PATRIMONIO 43614 40642 29774 30804 43706 27575 42486 28423 LINGUISTICO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 99
  • 100. 3. UN ESPERIMENTO DI STATISTICA LESSICALE ALTRI STRUMENTI: LINGUISTICA COMPUTAZIONALE E PYTHON Studi di questo tipo possono essere adeguatamente «personalizzati» ed adattati alle esigenze del ricercatore con i più moderni strumenti della Linguistica Computazionale, disciplina in costante evoluzione. A tal proposito risulta interessante l’efficacia dell’uso di un linguaggio di programmazione come il Python, anche se alcune modalità di ricerca nei corpora risultano ancora acerbe e male adattate in italiano (ad esempio la ricerca dalle parole forti). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 100
  • 101. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 101
  • 102. 3. UN ESPERIMENTO DI STATISTICA LESSICALE Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 102
  • 103. 4. ANALISI DI UN FENOMENO NEL PARLATO E NELLO SCRITTO Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 103
  • 104. 4. ANALISI DI UN FENOMENO OGGETTO DELL’ANALISI Per prima cosa abbiamo individuato il fenomeno linguistico che ci interessava analizzare all’interno dei corpus. Abbiamo scelto di analizzare il fenomeno di: “quello che è” (“quelli che sono”) utilizzato come RIEMPITIVO all’interno della frase. Il fenomeno è classificabile come tratto dell’italiano neostandard o substandard. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 104
  • 105. 4. ANALISI DI UN FENOMENO CAMPIONE D’ANALISI Abbiamo deciso di analizzare il fenomeno sia all’interno della dimensione dell’italiano scritto (attraverso l’interrogazione di corpora giornalistici) che nella forma parlata. Per fare questo ci siamo serviti di due strumenti di analisi che andremo adesso a presentare. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 105
  • 106. 4. ANALISI DI UN FENOMENO ANALISI DEL PARLATO Per l’analisi del parlato abbiamo utilizzato la risorsa del BADIP (Banca dati dello italiano parlato), creata e gestita dall’Università di Graz. All’interno del database si trovano comunicazioni orali ottenute delle situazioni comunicative più disparate. Comunicazioni a casa, sul luogo di lavoro e nelle scuole, ma anche telefonate, interviste, convegni, assemblee studentesche, trasmissioni televisive e radiofoniche. URL: http://badip.uni-graz.at/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 106
  • 107. 4. ANALISI DI UN FENOMENO L’interfaccia grafica con cui l’utente si viene a relazionare appare gradevole e di chiara comprensione. Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 107
  • 108. 4. ANALISI DI UN FENOMENO RISULTATI Totale Riempitivo Percentuale occorrenze Quello che è 0 - - Quelli che sono 28 19 67,8% Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 108
  • 109. 4. ANALISI DI UN FENOMENO Provenienza dei parlanti: 47% Milano (Nel campione sono presenti le città di Firenze, Napoli, Roma e Milano). Tipologie di comunicazioni:  41,1% scambio comunicativo unidirezionale in presenza del/i destinatario/i (es. lezioni universitarie, comizi politici, arringhe giudiziarie).  41,1% scambio comunicativo unidirezionale o bidirezionale a distanza o differito su testo non scritto (es. trasmissione televisiva o radiofonica).  17,8% scambio comunicativo bidirezionale con presa di parola non libera faccia a faccia (es. assemblee, dibattiti, esami universitari). Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 109
  • 110. 4. ANALISI DI UN FENOMENO ANALISI DELLO SCRITTO Per quanto riguarda la ricerca del fenomeno nella sua dimensione scritta, abbiamo utilizzato una risorsa nata nel contesto degli studi linguistici dell’Università di Bologna, risalente al 2011: Il corpus CORIS (Corpus di italiano scritto), a cui sono stati applicati gli appositi filtri per consentire una ricerca mirata ai soli articoli di quotidiani. URL della risorsa: http://corpora.dslo.unibo.it/TCORIS/ Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 110
  • 111. 4. ANALISI DI UN FENOMENO L’interfaccia grafica appare anche qui “amichevole” e si presta ad interrogazioni da parte di varie tipologie di utenti . Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 111
  • 112. 4. ANALISI DI UN FENOMENO RISULTATI Totale Riempitivo Percentuale occorrenze Quello che è 471 16 3,4% Quelli che sono 94 14 14,9% Alessia Pierfederici e Mariagiovanna Scarale, Linguistica Italiana II a.a. 2012/2013 112
  • 113. Alessia Pierfederici – Mariagiovanna Scarale GRAZIE PER LA VOSTRA ATTENZIONE Seminario di Linguistica italiana II (prof. Mirko Tavoni), a.a. 2012/2013