Elaborazione dei dati con Google Analytics e Big Query

 In Guida

L’integrazione fra Google Analytics e Big Query, annunciata nel 2013, è una feature passata sotto traccia rispetto al lancio di Universal Analytics, Google Tag Manager, integrazione con DoubleClick che hanno caratterizzato gli ultimi 18 mesi di digital analytics in casa Google.

Nondimeno, questa integrazione (e questo strumento) ci mettono a disposizione una potenza di fuoco di notevole interesse in era Big Data.

L’integrazione fra i due strumenti consente a Big Query di venire popolato quotidianamente con i dati grezzi (raw data) raccolti da Google Analytics. Una volta in Big Query, questi dati possono venire gestiti indipendentemente rispetto all’account Google Analytics.

L’account Google Analytics può gestire diverse properties e views (massimo 50), che consentono di raccogliere i dati in maniera specifica rispetto alle necessità. Di norma, ogni property ha una views priva di filtri che contiene tutti i dati. Visto che l’integrazione fra Big Query e Google Analytics può avvenire, al momento, solo per una view, è consigliato scegliere di impostare questa funzione sulla view contenente il maggior numero di dati, così da poter eseguire query su tutti i dati relativi alla property.

Una volta effettuata l’integrazione, il progetto Big Query selezionato verrà aggiornato giornalmente (in teoria ogni mattina) con tutti i dati raccolti relativi al giorno precedente. Verrà creato un nuovo dataset con nome uguale all’id del profilo GA integrato, e all’interno di questo dataset una table giornaliera con tutti i dati di riferimento. Queste tables verranno contrassegnate dal seguente pattern:

ga_sessions_YYYYMMDD

1

Ogni table sarà formata da uno schema facilmente identificabile e interrogabile.

2

Questo schema è un grande esempio di come poter sfruttare la capacità di BigQuery di rappresentare strutture nidificate e ripetute in un record. Per comprendere più facilmente lo schema, può essere utile analizzare una versione ridotta che mette in evidenza le proprietà più importanti e le strutture nidificate. In  corsivo vengono indicati i campi che contengono record con campi nidificati, mentre in grassetto vengono visualizzati i campi che ripetuti. Si noti che abbiamo campi che sono sia in grassetto che in corsivo, ad indicare che sono record ripetuti, e abbiamo campi ripetuto visualizzati all’interno di un campo ripetuto.

  • fullVisitorID
  • date
  • totals
  • trafficSource
  • device
  • customDimension
  • hits
    • time
    • referrer
    • page
    • transaction
    • customVariables
    • customDimension
    • customMetrics

A partire da questa struttura è possibile eseguire le query, semplicemente inserendo metriche e dimensioni (senza limiti, come per le API). Nell’esempio, un dataset di 28.8 KB è stato elaborato in 4,3 secondi, generando una tabella di dati (esportabile in formato TSV) contenente tutte le informazioni di riferimento.

3

Queste funzionalità consentono di estrarre i dati in maniera molto più profonda rispetto a Google Analytics (che mostra dei dati “masticati”). Una volta estratti i dati, però, è necessario saperli visualizzare.

Per farlo in maniera ottimale, si possono utilizzare dei tool specifici di Visualize, ecco alcuni esempi:

  • ShufflePoint

ShufflePoint è uno strumento di automazione di elaborazione dei dati e report che è particolarmente efficace nell’esportazione dei dati direttamente in Excel. Dispone inoltre di funzionalità per PowerPoint e cruscotti personalizzati web. Attualmente è in grado di aggregare dati provenienti da dodici fonti di dati, tra cui Google Analytics, Google AdWords, Google BigQuery, YouTube.com, e Salesforce.com. Questa lista è in continua crescita.

ShufflePoint si fa apprezzare perché il servizio clienti è incredibile. Le piattaforme di analisi supportate sono sempre in evoluzione, e ShufflePoint è estremamente rapido e proattivo nel sostenere questi cambiamenti. Inoltre, sono in grado di aggiungere il support per le piattaforme che si stanno utilizzando, se non sono disponibili.

  • Tableau

Tableau non fornisce solo l’elaborazione dei dati e l’aggregazione, ma anche estese visualizzazioni di dati. Inoltre, la curva di apprendimento per Tableau è meno ripida rispetto ad altre soluzioni. Insieme con il potere della visualizzazione, questa facilità d’uso è la più grande forza di Tableau.

La versione professionale di Tableau consente il collegamento ad alcune piattaforme di analisi, tra cui Google Analytics, Google BigQuery, e Salesforce.com. L’elenco completo è disponibile qui: http://www.tableausoftware.com/products/techspecs. Tableau è più focalizzato sui sistemi ERP e fonti Big Data. Non vengono elencate molte delle piattaforme di analisi digitali supportate da ShufflePoint.

  • R (con RStudio)

R è un linguaggio di programmazione di software gratuito progettato per il calcolo statistico e la grafica. Grazie al lavoro di sviluppatori indipendenti, ci sono pacchetti R per accedere a Google Analytics e Google Analytics BigQuery Export. RStudio ha curve di apprendimento più ripide fra le tre soluzioni di elaborazione dei dati e di reporting, ma è anche il più potente.

Anche se R è gratuito, è sicuramente meglio utilizzare RStudio per qualsiasi tipo di reportistica. Rstudio è un modello freemium, con piani tariffari per le soluzioni enterprise. E’ stata anche sviluppata una piattaforma di reporting web chiamato Shiny, che consente di generare report HTML e CSS utilizzando solo il linguaggio di programmazione R.

Ecco alcune considerazioni in merito a questa integrazione:

  1. L’export automatico in BigQuery è valido solo per Google Analytics Premium?
    Si, solo gli account Premium, che sono gli unici account che presentano i dati non campionati
  2. C’è un limite di righe?
    Non c’è un limite di righe (come avviene, invece, nell’export via API, per il quale il limite è di 10.000 righe). Ogni singola hit verrà esportata in queste tabelle e, considerando che può contenere dei campi aggiuntivi come il session ID e il timestamp, rappresenta l’accesso più granulare ai dati non campionati di Google Analytics.
  3. Quanto costa?
    I costi sono relativi all’utilizzo e alla raccolta dei dati. Per fare un confronto, un miliardo di hit di Google Analytics corrispondono a circa un terabyte di dati. Un terabyte costa 80 dollari al mese di storage in BigQuery. Per Google Analytics Premium, il costo della licenza è di 150.000 $ all’anno.
  4. I filtri di profilo vengono applicati quando effettuo un export su BigQuery?
    E’ importante considerare che, poiché il processo di esportazione rispecchia quello di elaborazione della tabelle dei report che normalmente vengono visualizzati in Google Analytics, gli stessi filtri verranno applicati anche ai dati esportati in BigQuery.
  5. Posso esportare dati da diversi profili?
    Solo un profilo per property può essere esportato. E’ quindi consigliato scegliere il profilo che garantisce il maggior valore in termini di dati. A meno che non ci siano delle limitazioni in termini di dimensioni dell’esportazione, probabilmente il miglior profilo in questo senso è quello complessivo o un profilo privo di filtri.
  6. L’Export con Big Query è una manichetta antincendio.
    E’ importante capire che una volta attivata questa funzione, il processo di esportazione dei dati durerà fino a che non verrà disabilitata. Ciò significa che il progetto in Big Query sarà continuamente riempito con i dati, e non è prevista la cancellazione automatica dei dati vecchi. E’ quindi buona norma elaborare un processo interno di gestione delle quantità di dati che si desiderano memorizzare in BigQuery e rimuovere periodicamente i dati che non sono necessari per evitare costi inutili.
  7. Classic vs Universal Analytics
    La funzione può essere attivata sia per profili Classic che per profili Universal Analytics (compresi profili relativi ad App). Tuttavia, i campi specifici di una delle piattaforme non verranno popolati nell’altra. Per esempio: le Custom Var (presenti solo nella versione Classic) non saranno presenti nei profili Universal, mentre i campi relativi Custom Dimensions e Custom Metrics saranno vuoti nei profili Classic.
  1. E’ meglio utilizzare Big Query o la console delle API di Google Analytics?
    Al di là degli aspetti legati alla personalizzazione che può far pendere la bilancia da una parte o dall’altra, l’export con Big Query presenta diversi vantaggi. Anzitutto, se si utilizzano le API sono presenti diversi limiti per il numero di metriche (10) e dimensioni (7) esportabili, mentre per Big Query questi limiti non sono presenti. Inoltre, ci sono diversi campi esportabili con Big Query e non con le API, come il Session ID, il visitor ID o il timestamp, che rendono l’esportazione con Big Query maggiormente granulare. Infine, anche se puoi confrontare l’erogazione automatica di tutti i dati delle sessioni all’interno del tuo sistema, Big Query è estremamente potente nell’elaborazione di set di terabyte di dati complessi da confrontare per qualsiasi sistema di Business Intelligence.
Articoli consigliati

Leave a Comment