Spamverkeer uitsluiten? 4 stappen voor een spamvrije Google Analytics!

Door: Johanneke van der Kooij
Datum:
Tags: Google Analytics Spamverkeer
Leestijd ± 10

Heb je veel last van spamverkeer in Google Analytics? Heb je er al honderd filters tegenaan gegooid maar kloppen de bezoekersaantallen nog steeds van geen kanten? Superfrustrerend. En geloof ons, je bent niet de enige. Wij krijgen van klanten regelmatig de vraag hoe je spamverkeer nu toch eindelijk kunt uitsluiten in Google Analytics. Als je de 4 stappen volgt in deze blog, ben je er als het goed is vanaf! Het duurt even, dus neem rustig de tijd.

Haal even diep adem…

Oké, komt-ie!

Stap 1. Maak een hostnaamfilter voor ‘ghost spam’

Ghost spam heet zo, omdat deze jouw site nooit echt bezoekt, en daarom een niet-bestaande hostnaam achterlaat of deze niet specificeert. Een hostnaamfilter blokkeert deze spam, die afkomstig kan zijn van onder andere:

  • Nepcookiesites
  • Site-auditors
  • Spammers die doen alsof ze echte sites zijn
  • De meeste ‘secret.google.com’ language spam

Zorg dat je al jouw hostnamen weet, zodat je deze kunt toevoegen aan het filter.

Om aan die hostnamen te komen, ga je in je Analytics-account onder ‘Doelgroepen’ naar Technologie

  1. Selecteer het ‘Netwerk’ rapport
  2. Selecteer dan de tab ‘Hostnaam’ bovenaan het rapport. Nu krijg je alle geldige hostnamen te zien. Maak hier zelf een lijst van.

1.1. Maak een Regex voor je geldige hostnamen

Als je deze namen hebt gevonden, moet je een regular expression (Regex) maken waarin deze allemaal zitten. Je moet wel alle relevante hostnamen toevoegen, anders mis je potentieel relevant bezoekersverkeer. Hoe doe je dit?

  • Typ alle hostnamen in met | als scheidingsteken tussen de hostnamen.
  • Elke keer dat je een punt . of een verbindingsstreepje – gebruikt (wat vaak geldt voor URL’s), moet je hiervoor een backslash \ zetten.
  • Gebruik geen spaties
  • Regex heeft een limiet van 255 tekens (controleer dit in Word)
  • Gebruik geen | aan het begin of aan het eind van de Regex

Een (fictief) voorbeeld hiervan:

eresults\.nl|www\.eresults\.nl|site\.eresults\.nl

Hierbij zijn terugvertaald de URL’s die zijn toegevoegd (gescheiden door “|”):

  • eresults.nl
  • www.eresults.nl
  • site.eresults.nl

Door ditzelfde principe te gebruiken, maak je je Regex voor jouw website.

1.2. Creëer een goed hostnaamfilter

Als je weet dat de Regex correct is, kun je gebaseerd op deze expressie een filter maken. Zo kom je van je ghost spam af (zie ook de schermafbeeldingen hieronder):

  1. Ga naar het tabblad ‘Beheerder’ en selecteer de weergave waarbij je het filter wilt toevoegen
  2. Selecteer ‘Filters’ onder de ‘Weergave’ kolom, en selecteer de rode knop ‘+ Filter toevoegen
  3. Geef het filter een naam, bijvoorbeeld: ‘Geldige hostnamen’
  4. Het filtertype zet je op ‘Aangepast’
  5. Zorg ervoor dat je de hostnaam op ‘Opnemen’ zet en selecteer ‘Hostnaam’ als filterveld.
  6. Voeg je Regex toe in het 'Filterpatroon’ veld.
  7. Als alles goed staat, klik je op ‘Opslaan’.

 

Stap 2. Maak een filter voor crawler en language spam

Crawler spam is moeilijker te detecteren dan ghost spam, omdat het wél een geldige hostnaam gebruikt. Je hebt dus een ander filter nodig met een andere expressie. Doe hiervoor het volgende (zie ook de schermafbeelding hieronder):

  1. Ga naar het ‘Beheerder’ tabblad
  2. Bij de laatste kolom ‘Weergave’, selecteer filters en klik '+ Filter toevoegen'
  3. Typ ‘Crawler Spam Filter’ in als naam
  4. Bij 'FilterType', kies 'Aangepast' -> 'Uitsluiten'
  5. Bij 'Filterveld', kies -> 'Campagnenaam'
  6. Bij 'Filterpatroon' -> plak één van de crawler spam expressies die volgen na deze screenshot.

De volgende expressies zijn geoptimaliseerd om alle crawler spam te blokkeren die de laatste paar jaar zijn gedetecteerd. Maak voor elke expressie een apart filter. Herhaal hiervoor de stappen 2 t/m 6.

# Expressie 1

(best|dollar|success|top1)\-seo|(videos|buttons)\-for|anticrawler|^scripted\.|semalt|forum69|7makemon|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|dbutton|uptime(bot|check|\.com)

# Expressie 2

datract|hacĸer|ɢoogl|responsive\-test|dogsrun|tkpass|free\-video|keywords\-monitoring|pr\-cy\.ru|fix\-website|checkpagerank|seo\-2\-0\.|platezhka|timer4web|share\-buttons|99seo|3\-letter

# Expressie 3 – voor language spam
--> LET OP: Volg dezelfde stappen maar selecteer in plaats van 'Campagnenaam' ‘Taalinstellingen'

\s[^s]*\s|.{15,}|\.|,

Stap 3. Sluit alle hits van bekende bots en spiders uit

Er zijn enorm veel andere crawlers bekend die geen spam zijn, maar ook geen waarde toevoegen aan je Google Analytics rapportages. Bijvoorbeeld de bots die je site crawlen, zodat deze geïndexeerd kan worden. Hiervoor een filter maken is iets makkelijker, want Google heeft hier zelf al aan gedacht, dus er is een functie voor.

Selecteer onder ‘Weergave’ de juiste site, en zet bij ‘Instellingen voor dataweergave’ het volgende vinkje aan: ‘Alle hits van bekende bots en spiders uitsluiten’. Druk tot slot op ‘Opslaan’.

 

 

Stap 4: Ruim je spamgeschiedenis op in Google

De spam die al is opgeslagen in je Analytics-account kan niet permanent verwijderd worden. Daarom is het zo belangrijk om filters te maken om botverkeer uit te sluiten.

Wat je wel kunt doen tegen historische spamdata, is dat je de ‘geldige hostnaam’ expressie gebruikt om deze data te segmenteren (en op die manier in de doelgroepweergave uit te sluiten).

Om deze spam te verwijderen van je historische data in Google Analytics, moet je een geavanceerd segment maken, met bepaalde voorwaarden.

Hoe doen we dit?

1. Ga naar 'Doelgroep' -> 'Overzicht' en selecteer ‘Alle gebruikers’.

2. Klik vervolgens op de rode knop ‘+Nieuw segment’ linksboven in het overzicht.

 

3. Klik onder ‘Geavanceerd’ op ‘Voorwaarden’. Hier voeg je 3 voorwaarden toe om je spamgeschiedenis te verwijderen, doe dit één voor één.

4. Eerste voorwaarde:

  • 'Filter' > 'Sessies' > 'Opnemen', dit staat al goed.
  • Verander dropdown waar staat ‘Aantal sessies’ naar ‘Hostnaam
  • Verander dropdown waar staat ‘bevat’ naar ‘komt overeen met RegEx
  • Tekstveld > Plak de hostnaamexpressie die je eerder hebt gebruikt voor het filter.

Klik '+ Filter toevoegen' onderaan om een nieuwe conditie toe te voegen.

5. Tweede voorwaarde:

  • 'Filter' > 'Sessies' > 'Uitsluiten'
  • Verander dropdown waar staat ‘Aantal sessies’ naar ‘Bron
  • Verander dropdown waar staat ‘bevat’ naar ‘komt overeen met RegEx’
  • Tekstveld > Plak de volgende Crawler Spam expressie:
(best|dollar|success|top1)\-seo|(videos|buttons)\-for|anticrawler|^scripted\.|\-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|dbutton|\-crew|uptime(bot|check|\.com)|datract|hacĸer|ɢoogl|responsive\-test|torrent\-to|magnet\-to|dogsrun|tkpass|free\-video|keywords\-monitoring|pr\-cy\.ru|fix\-website|checkpagerank|seo\-2\-0\.|platezhka|timer4web|share\-buttons|99seo|3\-letter

6. Klik op het knopje ‘Of’ aan de rechterkant van jouw voorwaarde die je net gesteld hebt

7. Derde voorwaarde (om de nieuwe language spam uit te sluiten):

Hij neemt automatisch de instellingen van de tweede voorwaarde over. Dit moet je als volgt aanpassen:

  • Verander de eerste dropdown naar ‘Taal'
  • De tweede dropdown moet al staan op ‘komt overeen met RegEx
  • Tekstveld > Plak de volgende anti-language spam expressie:
\s[^s]*\s|.{15,}|\.|,

8. Geef het segment bovenaan het venster een naam, bijvoorbeeld ‘Spamgeschiedenis’ en druk op ‘Opslaan’. 

Gefeliciteerd met je spamvrije Google Analytics-account!

Als het goed is zijn nu al je rapportages spamvrij, zolang je het segment hebt geselecteerd in het doelgroepoverzicht. Uiteindelijk gaan de filters hun werk doen en heb je het segment niet meer nodig. Laat je ons weten of het gelukt is?

Heel veel succes!

Doorpraten naar aanleiding van dit blog? Bel mij.
030 242 0931
Terug naar het overzicht

Wil je artikelen eerder lezen?

Schrijf je in voor onze tweemaandelijkse nieuwsbrief