Esistono diversi modi per ricavare un elenco delle pagine indicizzate su Google che vengono visualizzate nella SERP (ovvero nei risultati del motore di ricerca).
Avere un elenco di queste pagine può essere molto utile nel mondo SEO e lo si può ottenere utilizzando Google Docs.
Estrarre gli indirizzi dalla SERP Google è diventato un po' più difficile rispetto a qualche tempo fa: in una prima fase gli URL non sono puliti, quindi dopo averli recuperati bisognerà applicare delle modifiche per ottenere degli url utilizzabili.
La procedura qui descritta è in parte manuale ma volendo può essere automatizzata piuttosto facilmente.
Caricare i dati della SERP con importXml()
La prima operazione da effettuare è quella di estrapolare i dati dalla SERP. Per farlo si può usare la funzione importXml() del foglio di calcolo disponibile su Google Docs (Google Drive).
Questa funzione elabora un file XML, in questo caso l'indirizzo di Google con la query che comprende l'operatore "site:". la funzione importXml() accetta un secondo parametro che permette di filtrare il file XML in ingresso ed estrarre solo i dati che servono.
Nello specifico il filtro cerca tutti gli elementi h3
con la classe r
e da questi preleva l'attributo href
contenuto nei tag a
.
Questo metodo è valido finché l'ouput della SERP non verrà modificato. In tal caso bisognerà modificare la funzione per elaborare la nuova struttura della pagina.
La formula completa è:
=importXml("www.google.com/search?q=site:www.example.com&num=100&start=0"; "//h3[@class='r']//a/@href")
L'indirizzo contiene due parametri: num
e start
.
Il parametro num
indica il numero di risultati da visualizzare, mentre il parametro start
è l'offset da cui partire.
Il massimo numero di risultati permesso è 100, quindi nel caso di siti con molte pagine bisognerà ripetere l'operazione aumentando l'offset, ovvero sostituendo start=0
con start=100
, start=200
e così via.
Ripulire i risultati ottenuti
Gli indirizzi che si ottengono vanno quindi ripuliti. Alcuni caratteri speciali non sono accettati nelle stringhe che compongono gli URI, pertanto sono sostituiti con delle sequenze di escape.
Nel caso in questione i caratteri sono: =
, &
e ?
che sono sostituiti rispettivamente da: %3D
, %26
e %3F
.
Quindi basterà un semplice replace per vedere gli indirizzi nella forma normale.
Inoltre Google appende agli URL alcuni parametri che cominciano per &sa=
. Per toglierli si può usare una regexp che identifica tutta la parte in eccesso che andrà eliminata. Le sotto stringhe si possono trovare con la seguente regexp: \&sa\=.*
.
Si possono quindi combinare tutti questi passaggi in un foglio di calcolo su Google Docs.
Alcune osservazioni sull'estrazione dei dati dalla SERP
Per prima cosa va segnalato che troppe ricerche consecutive potrebbero essere bloccate da Google, quindi la procedura non va abusata.
Questo sistema può essere modificato per trovare altre informazioni utili ai SEO, ad esempio per calcolare la posizione di un sito nella SERP per determinate keyword o per monitorare le meta description.
Questo approccio può essere implementato anche scrivendo dei software che prelevano l'output delle ricerche e ne analizzano i dati. I software "SEO" solitamente lavorano proprio in questo modo.
Infine voglio lasciare una nota/domanda a proposito delle condizioni d'uso dei vari strumenti Google: questo tipo di operazioni, tecnicamente alla portata di tutti, sono permesse dalle condizioni d'uso del servizio Google Search e Google Drive?
Ultimi commenti
7 years 49 settimane fa
7 years 50 settimane fa
7 years 51 settimane fa
8 years 11 settimane fa
8 years 11 settimane fa
8 years 11 settimane fa
8 years 12 settimane fa
8 years 12 settimane fa
8 years 13 settimane fa
8 years 13 settimane fa