Il 2020 ha visto come protagonista la pandemia del COVID-19, le necessarie misure di sicurezza adottate hanno portato per molte persone cambiamenti nel proprio modo di lavorare, studiare e relazionarsi. È stato l’anno del boom dello smart working, della didattica a distanza e, in generale, è stato l’anno di un uso maggiore di piattaforme e servizi online.
TOP-IX ha analizzato, dal proprio punto di vista e facendo leva su dati open, il cambiamento nel comportamento di accesso ai servizi Internet e di performance sulla rete.
Dopo una prima analisi approfondita svolta all’inizio dell’anno, sono stati effettuati controlli mensili dove abbiamo constatato un riassestarsi nei valori medi e mediani rispetto agli anni precedenti durante e dopo il periodo estivo.
In questo articolo riassumiamo le osservazioni principali inerenti a tre punti di vista:
- Osservazioni sul traffico delle rete
- Analisi delle performance con SpeedTest by Ookla
- Controlli successivi con dati da Measurement Lab
Osservazioni sul traffico della rete
Il primo parametro monitorato è stato l’intero traffico Internet sull’infrastruttura TOP-IX da fine gennaio a marzo.
Si è tenuto conto, per ciascun giorno, dei valori medi e dei valori massimi, riscontrando una forte crescita dall’inizio di marzo con mantenimento del traffico aumentato nelle settimane successive (Figura 1).
Questo primo risultato ci ha permesso di osservare un effetto importante del primo lockdown italiano iniziato ufficialmente proprio il 9 marzo. Una seconda fase di questa prima parte della ricerca si è focalizzata sull’osservazione del traffico giornaliero medio scambiato su singoli CDN portando alla luce cambi di comportamento nell’uso di servizi web.
Tali evidenze portano a validare l’ipotesi di come anche una vista parziale e locale sulla rete possa percepire le conseguenze del fenomeno globale delle restrizioni dovute alla pandemia.
Analisi delle performance con SpeedTest by Ookla
L’istanza di TOP-IX dello SpeedTest di Ookla ci ha permesso inizialmente di analizzare la variazione di latenza e di jitter (la variazione del ritardo di pacchetto)
nel periodo da ottobre 2019 a marzo 2020 (ad eccezione del periodo da metà gennaio a metà febbraio).
Si sottolinea che i circa 180 mila test analizzati sono prevalemente effettuati intorno all’area di Torino e regioni limitrofe e solo una piccola parte da località più distanti in Italia e all’estero.
Si è scelto di raggruppare i dati per giorno e confrontare la media e la mediana per osservarne l’andamento nel tempo.
Analisi della latenza
La seguente heatmap mostra in modo evidente l’aumento della latenza nei valori giornalieri medi e mediani (in particolare dal 12 al 16 marzo).
I grafici boxplot in Figura 3 riflettono ancora più chiaramente l’andamento di tutti gli speedtest acquisiti mensilmente. Notiamo come la distribuzione della latenza nei diversi mesi sia spostata verso valori più alti sia per i valori mediani che medi.
Analisi del jitter
Dalla rappresentazione grafica con heatmap (Figura 4) notiamo in maniera ancora più evidente la disposizione statistica dei valori giornalieri per ciascun mese: nel mese di marzo si riscontra un aumento dei valori di jitter (ms) che confermano la maggiore congestione della rete.
Controlli successivi e apparente ritorno nei valori stagionali
Successivamente sono stati effettuati mensilmente dei controlli sull’andamento globale dei test di SpeedTest di Ookla dell’istanza di TOP-IX, quindi sempre prevalentemente in Piemonte.
Nelle Figure 5 e 6 possiamo notare il trend dei 280 mila test acquisiti da fine febbraio ad inizio dicembre 2020. Entrambi i trend di jitter e di latenza mostrano una diminuzione dei valori mediani giornalieri da maggio ad ottobre. In particolare emerge come per la latenza ci sia una notevole variazione anche nei mesi di luglio agosto per poi diminuire in settembre.
Infine si nota come i valori giornalieri mediani, di jitter e in particolare di latenza (vedi Figura 6), stanno nuovamente aumentando in novembre e inizio dicembre. Tale osservazione è in linea con gli andamenti stagionali degli anni passati.
Ipotizziamo che l’esperienza durante i difficili mesi primaverili ha portato carrier e Internet Service Provider a fortificare le proprie risorse e migliorare le proprie performance per far fronte nuove restrizioni e relativo ritorno alla didattica a distanza e ad un sempre maggior numero di lavoratori in smart working.
Controlli successivi con dati da Measurement Lab
Per tracciare le performance sulla rete ci siamo avvalsi dei dati messi a disposizione da Measurement Lab, il laboratorio di raccolta di metriche di supportato da Code for Science & Society, Google e partner da tutto il mondo, tra cui TOP-IX stesso che ospita macchine dedicate nel proprio data center.
Tali metriche vengono raccolte tramite un test di performance open source implementato in servizi Google e in diverse applicazioni per il web che permette di avere dati dettagliati rilasciati in tabelle su Google BigQuery.
I test di performance di Internet in upload e download sono salvati in due tabelle separate ottimizzate per gli usi di ricerca, con approcci già validati in passato. L’analisi ha circa 378 mila test dalla tabella download e 323 mila da inizio gennaio ad inizio dicembre effettuati in Italia (geolocalizzazione tramite MaxMind).
Fra i parametri messi a disposizione ci siamo concentrati su informazioni geografiche nelle diverse regioni italiane e trend di latenza. Per questo specifico caso di studio abbiamo usato i valori di velocità di download e upload come parametri di controllo per l’osservazione di fenomeni anomali e identificazione di outlier che avrebbero potuto falsare le statistiche.
Questa visione d’insieme ci ha permesso di confermare l’andamento precedentemente citato sulla latenza in Piemonte, osservando il parametro di Round Trip Time (RTT) minimo proporzionale all’andamento della latenza.
I dati open di Measurement Lab ci hanno permesso di fare altri confronti con altre regioni, ad esempio la Lombardia, dove notiamo, seppur in modo meno evidente, l’anomalia primaverile per poi tornare al conosciuto andamento stagionale dopo l’estate.
Conclusioni
Possiamo confermare come lo studio del traffico passante da CDN dedicate sia un ottimo parametro per notare, seppur parzialmente, il cambiamento comportamentale nell’uso dei diversi servizi offerti su Internet, e come metriche di performance della rete, in particolare latenza e RTT, possono essere influenzate ed utilizzate come parametri di controllo delle osservazioni.
Sottolineiamo che l’analisi effettuata è da considerarsi un punto di vista sul fenomeno, dettata sia dalla frammentazione del traffico di grandi content provider su CDN di diverse reti sia per il fatto che campione dei di performance raccolti sono in funzione della stessa accessibilità alla rete.
Ci auspichiamo che in futuro queste diverse realtà possano parlare e relazionarsi in modo sempre più aperto per permettere analisi collaborative avvicinandosi sempre di più ad una visione globale di fenomenologie simili.