L'indice di eterogeneità di Gini è un indice di eterogeneità per variabili qualitative. Esso offre una misura della eterogeneità (omogeneità) di una distribuzione statistica a partire dai valori delle frequenze relative associate alle modalità di una generica variabile (si ricordi che quest'indice è usato nella statistica descrittiva univariata, dove si considera una sola variabile). Ciò vuol dire che se i dati sono distribuiti in modo eterogeneo su tutte le modalità di (cioè, se le modalità hanno numerosità simili o, nel caso di massima eterogeneità, uguali), l'indice di Gini è elevato, viceversa, in caso di distribuzione di frequenza omogenea l'indice sarà (percentualmente) piuttosto basso. L'indice di Gini è così definito:
dove gli sono le frequenze relative delle modalità di .
Normalizzazione dell'indice di Gini
Per essere significativo, in generale, un indice deve essere relativizzato onde fornire una misura che sia confrontabile con altre al fine di stabilire se il valore trovato è più o meno elevato. Avendo due distribuzioni di dati (si noti in proposito che le frequenze relative si ottengono dividendo le frequenze assolute associate a ogni elemento della popolazione statistica, per il totale dei dati osservati) sulle quali si è calcolato l'indice di Gini, per avere informazioni sul grado di maggiore o minore elevatezza dell'eterogeneità devo opportunamente relativizzare l'indice, ottenendo così l'indice normalizzato. L'indice viene normalizzato dividendolo per il suo massimo se il minimo è uguale a o dividendo l'indice meno il minimo dell'indice per il suo massimo meno il minimo se il minimo è diverso da . In questo modo si ottiene l'indice normalizzato (con valori tra e ). Si calcolano perciò il minimo e il massimo a partire da distribuzioni minimanti e massimanti.
Indice di concentrazione e indice di asimmetria
La metrologia vuole che il valore di una grandezza, dopo una o più osservazioni, sia fornito unitamente all'errore, anche per poter stabilire la significatività della misura.
In modo simile, la distribuzione di probabilità dei valori di una variabile casuale è descritta da un insieme minimo di due elementi (due numeri), che sono la media e la deviazione standard, stimati o misurati.
L'indice di Gini è una media di deviazioni standard, cui tuttavia possono corrispondere distribuzioni di probabilità anche molto diverse tra loro, e appare quindi insufficiente da solo a descrivere i principali aspetti di una curva di Lorenz. Alcuni autori propongono una descrizione "duale" della curva di Lorenz (un'analisi fattoriale). Si utilizzano due numeri, per la relativa variabile casuale di tipo quantitativo e trasferibile: una misura della concentrazione e una seconda misura dell'asimmetria della curva.
Ciò si rende necessario, ad esempio, per poter confrontare distribuzioni del reddito (curve della distribuzione di probabilità cumulate per la variabile reddito), le cui curve di Lorenz si intersecano tra loro.[1]
Per comparare (l'indice di asimmetria di) curve di Lorenz che hanno diverso indice sia di asimmetria che di concentrazione, l'indice di asimmetria della curva di Lorenz deve prima essere normalizzato, rispetto al suo indice di Gini (indici di Gini delle sotto-distribuzioni in cui è suddivisa, per esempio a destra e a sinistra del valore medio).
Minima eterogeneità
In caso di minima eterogeneità (massima omogeneità) i dati sono tutti distribuiti su una modalità che ha frequenza pari al 100%, mentre le altre modalità hanno frequenza 0. Perciò si ha:
con frequenze assolute. Quindi
essendo gli . Infatti:
Massima eterogeneità
In caso di massima eterogeneità, tutte le modalità hanno uguale frequenza, quindi si ha:
dove è il numero delle modalità e
Perciò avremo:
Indice normalizzato
Dividendo l'indice per il massimo, si ottiene l'indice normalizzato (percentuale):
Note
- ^ A. Tarsitano, Measuring the Asymmetry of the Lorenz Curve, Università degli Studi della Calabria - Dipartimento di Economia e Statistica, su Ricerche Economiche, Vol. XLII, n.3, 1988 pp. 507-319
Voci correlate