Redenen waarom je pagina's niet worden geïndexeerd

Stel, je maakt een goede pagina vol met nuttige en interessante informatie, leuke producten en Google zegt: “Nee, deze indexeren we niet.” Erg vervelend, want je hebt er net veel moeite in gestoken. Als Google een pagina überhaupt niet indexeert wijst dat meestal op een technische instelling. Nu hebben we het niet over een lage ranking, want dat heeft andere oorzaken.

Wat is het verschil tussen crawlen en indexeren?

Crawlen is de eerste fase waarin de zoekmachinebot, ook wel bekend als de Googlebot, de webpagina’s van een website bezoekt. Tijdens het crawlen volgt de bot links van de ene pagina naar de andere en doorzoekt het hele internet op nieuwe en gewijzigde pagina’s. Het doel is om de inhoud van deze pagina’s op te halen en te begrijpen, zoals tekst, afbeeldingen en links.

Indexeren is het proces waarin de zoekmachine pagina’s na het crawlen, waarbij de pagina’s in een reusachtige database wordt opgeslagen.

Als je een goede pagina hebt gemaakt, wil je het liefste dat deze direct verschijnt in de zoekresultaten om voor mensen gevonden te kunnen worden. Dit doe je door de pagina te laten ‘Fetchen.’ Als je een pagina fetcht, bezoekt Googlebot direct de pagina en indexeert hem (of niet). Als een pagina niet wordt geïndexeerd kun je dat terugvinden in Google Search Console. Soms wordt hier ook al gelijk de reden aangedragen waarom een pagina niet wordt geïndexeerd, maar regelmatig zal je zelf op onderzoek uit moeten gaan. Er zijn wel meer dan 10 technische oorzaken waarom een pagina uitgesloten zou kunnen zijn voor Google. De één is makkelijker op te lossen dan de ander, maar allen zijn niet meer dan enkele regels code of een instelling in je backend of FTP.

Gecrawld – momenteel niet geïndexeerd

Soms geeft Google weer dat een pagina gecrawld is, maar niet geïndexeerd. Ten eerste is het belangrijk om een onderscheid te maken tussen “crawlen” en “indexeren”. Crawlen en indexeren zijn twee verschillende dingen en deze twee termen worden vaak door elkaar gehaald. Crawlen betekent dat Googlebot alle inhoud en code op de pagina bekijkt en deze analyseert. Indexeren houdt in dat de pagina in aanmerking komt voor weergave in de zoekresultaten van Google.

Het bericht ‘gecrawld – momenteel niet geïndexeerd’ wordt soms weergegeven. Wanneer een zoekmachine zoals Google een website bezoekt, doorloopt deze een proces dat bekend staat als ‘crawlen’. Tijdens het crawlen doorzoekt de zoekmachine de inhoud van de website om te bepalen welke pagina’s er zijn en welke informatie ze bevatten. Dit is het eerste stadium van het indexeren van de website. Na het crawlen, als alles goed is geconfigureerd op de website, worden de geïndexeerde pagina’s opgenomen in de zoekmachine-index. Dit betekent dat de pagina’s kunnen worden weergegeven in de zoekresultaten wanneer gebruikers zoekopdrachten uitvoeren die relevant zijn voor die pagina’s. De melding ‘gecrawld – momenteel niet geïndexeerd’ geeft aan dat de zoekmachine de website heeft bezocht en de inhoud heeft gecrawld, maar op dit moment heeft besloten om de pagina’s niet op te nemen in de zoekmachine-index. Dit kan verschillende redenen hebben, zoals irrelevante inhoud, dubbele inhoud en technische problemen.

Hieronder vind je een aantal redenen geformuleerd waarom een pagina mogelijk niet geïndexeerd wordt door Google.

1. Opgenomen in Robots.txt

Heb jij wel eens de robots.txt van een website bekeken? De robots.txt is een bestandje met regels voor crawlers, zoals Googlebot. Deze regels reguleren welke pagina’s de crawlers niet mogen bezoeken. Vaak worden pagina’s zoals de kassa-omgeving van een webshop afgesloten, evenals de admin-omgeving. Soms worden ook andere pagina’s in de Robots.txt uitgesloten.

Een pagina die is opgenomen in de Robots mag niet worden bezocht door crawlers. Als Googlebot een pagina niet kan crawlen, wordt deze dus ook niet geïndexeerd. Zorg dus dat je pagina’s die je wél geïndexeerd wilt hebben, nooit opneemt in de robots.txt!

Meestal als je de robots.txt wilt aanpassen, moet dit via de FTP. Als dit een vreemd woord voor je is, raden we je vooral aan om je webbouwer in te schakelen als jij van mening bent dat de robots.txt van jouw website niet goed is.

2. No-Index tag

Soms als een nieuwe pagina gepubliceerd wordt staat deze nog op No-Index. Dit is een enkele regel HTML code waarmee je aan Google aan kan geven dat je deze pagina niet geïndexeerd wilt hebben.

Deze regel kan bijvoorbeeld worden gebruikt voor pagina’s die wel een informatieve functie hebben, maar er verder geen baat bij hebben om te verschijnen in de SERPS. Een ander voorbeeld zijn bedankpagina’s. Deze pagina’s hebben een belangrijke functie, maar er is geen toegevoegde waarde om deze in de Google rankings te laten verschijnen.

Het toevoegen of verwijderen van de No-Index is in alle systemen een simpele selectie. Wees niet bang – de instelling No-Index zal altijd automatisch staan uitgeschakeld. Een pagina op No-Index zetten is 99 van de 100 keer dus een bewuste actie.

3. Foute Canonical

Veel websites voegen automatisch canonicals toe aan alle pagina’s. Dit is een zeer handige instelling, maar ook erg foutgevoelig. Zo gaat dit regelmatig fout bij de paginatie van een productcategorie of bij taalinstellingen. Een verkeerde canonical kan ervoor zorgen dat een pagina volledig uit de rankings verdwijnt of zelfs nooit geïndexeerd wordt.

Ook de canonical is één enkele HTML regel. Deze regel is net zoals de No-Index instelling doorgaans simpel aan te passen. Als je het niet zeker weet, schakel dan Traffic Today in en we zullen je graag helpen!

Bij pagina’s die je wél geïndexeerd wilt hebben is het doorgaans verstandig om een wederkerige canonical toe te voegen. Deze verwijst dus naar zichzelf.

4. Uitgesloten via server

Een andere reden voor het niet indexeren van een pagina kan veroorzaakt worden door server instellingen. Afhankelijk van het type server (Apache, Nginx, IIS, etc) liggen er mogelijkheden om pagina’s of bots te blokkeren. Het komt gelukkig niet vaak voor dat Googlebot geblokkeerd is via de server. Desalniettemin is het handig om deze instellingen te controleren en indien nodig aan te passen. Er zijn namelijk een aantal bots aanwezig op het internet die ervoor kunnen zorgen dat je website trager wordt, of de content van je website scrapen om dit vervolgens ergens anders te plaatsen.

5. Niet opgenomen in sitemap.xml

Net zoals de Robots.txt, bestaat er een sitemap.xml. De sitemap.xml is een bestand dat bestaat uit een lijst met URL’s. Deze lijst dienst als een soort van kruimelspoor van jouw website voor Google. Je geeft Google als het ware alvast een lijst met alle URL’s van jouw website voordat Google je site crawled.

Dit zorgt ervoor dat Google je site beter kan crawlen met als gevolg een betere indexatie. In de sitemap.xml plaats je alleen URL’s die je ook daadwerkelijk geïndexeerd wilt hebben.

Als een volledig nieuwe pagina niet genoemd staat in de sitemap.xml zal dit de spoedige indexering zeker niet ten goede komen. Zorg dus altijd dat alle pagina’s die je geïndexeerd wilt hebben terugkomen in de sitemap.xml.

6. Geen interne inlinks & No-Follow tag

Als Googlebot je site bezoekt, begint hij altijd op de homepage. Vervolgens klikt hij op allerlei links op de pagina op zoek naar nieuwe pagina’s op je website, totdat hij alle gelinkte pagina’s heeft gehad.

En zie daar gelijk het probleem: geheel nieuwe pagina’s hebben vaak geen inlink vanaf een andere pagina op de website. Als een pagina geen inlinks heeft en niet wordt genoemd in de sitemap.xml, is hij onzichtbaar voor Googlebot.

Zorg dus altijd dat je direct nieuwe inlinks bouwt naar je nieuwe pagina. Dit is niet alleen belangrijk omdat Googlebot de pagina zonder inlinks niet eens ziet, maar ook om meer waarde naar de nieuwe pagina te dirigeren.

Zorg er daarnaast ook voor dat deze inlinks goed gevolgd worden door Google. Net zoals de No-Index tag, bestaat er een No-Follow tag. Wanneer Google-bot deze tag tegenkomt, registreert hij de link wel maar volgt hem niet. Googlebot ‘klikt’ als het ware niet op de link en bezoekt de achterliggende pagina niet. Als een pagina dus alleen maar inlinks heeft met een No-Follow tag, wordt de pagina alsnog niet geïndexeerd.

7. Niet genoeg autoriteit via backlinks

In het vorige kopje benoemde we kort de waarde die wordt doorgegeven vanaf andere pagina’s naar de nieuwe pagina die je geïndexeerd wilt hebben.

Interne links zijn zeer belangrijk, maar ook externe links doen een individuele pagina veel goeds. Als je bij het online zetten van een pagina direct enkele externe backlinks regelt, zal dit de ranking veel goeds doen. Het kan net die boost geven die nodig is om een nieuwe pagina omhoog te laten schieten.

8. Crawlbudget

Voordat we uitleggen waarom crawlbudget een invloed kan hebben op de indexatiestatus van een pagina, is het eerst belangrijk om uit te leggen wat crawlbudget precies is.
Het crawlbudget is het aantal pagina’s dat Google op een dag op jouw site crawled. Dit aantal verschilt van dag tot dag, maar over het algemeen is het redelijk stabiel. Het aantal pagina’s dat per dag door Google wordt gecrawld wordt door een aantal factoren bepaald, zoals de hoeveelheid fouten in je site, maar ook het aantal externe links en de autoriteit van je website.
Crawlbudget kan voornamelijk voor problemen zorgen op het moment dat je een grote website hebt, met een laag crawlbudget. Stel je website heeft 300.000 pagina’s, en Google crawled elke dag 2.000 pagina’s. Dit zou dus inhouden dat het erg lang gaat duren voordat Google al je pagina’s heeft gecrawled. Hierdoor kan het zijn dat een nieuwe pagina niet wordt geïndexeerd.

9. Duplicate content

Duplicate content houdt in dat je dezelfde content op meerdere URL’s terug kunt vinden. Dit kan ontstaan doordat je website technisch niet helemaal goed staat, of dat er teksten gekopieerd worden naar andere (evt externe) pagina’s.

Te veel dubbele inhoud op een site kan zoekmachines verwarren en ervoor zorgen dat een pagina niet geïndexeerd wordt. Aangezien er meerdere oorzaken zijn voor duplicate content, zijn er ook meerdere oplossingen beschikbaar om de duplicate content op je site te verminderen.

Afsluiting

In dit artikel hebben we een deel van de veelvoorkomende redenen beschreven waarom een pagina niet geïndexeerd kan worden. Ervaar jij problemen met het indexatie proces van je website? Traffic Today kan je helpen om dit in kaart te brengen en op te lossen.

Marc staat voor je klaar!

Heb je een vraag?

Neem contact op 0570 - 244 070

Nog geen genoeg?

Dit is ook interessant

#Kennis

Google Data Studio. Al je online marketing in één Dashboard | Traffic Today

22 januari 2019

6 min leestijd

Cases

Blog - 28 februari 2019

9 redenen waarom pagina´s niet worden geïndexeerd

Wat is het verschil tussen crawlen en indexeren?

Gecrawld – momenteel niet geïndexeerd

1. Opgenomen in Robots.txt

2. No-Index tag

3. Foute Canonical

4. Uitgesloten via server

5. Niet opgenomen in sitemap.xml

6. Geen interne inlinks & No-Follow tag

7. Niet genoeg autoriteit via backlinks

8. Crawlbudget

9. Duplicate content

Afsluiting

Cases

Blog - 28 februari 2019

9 redenen waarom pagina´s niet worden geïndexeerd

Wat is het verschil tussen crawlen en indexeren?

Gecrawld – momenteel niet geïndexeerd

1. Opgenomen in Robots.txt

2. No-Index tag

3. Foute Canonical

4. Uitgesloten via server

5. Niet opgenomen in sitemap.xml

6. Geen interne inlinks & No-Follow tag

7. Niet genoeg autoriteit via backlinks

8. Crawlbudget

9. Duplicate content

Afsluiting

Dit is ook interessant

Google Data Studio. Al je online marketing in één Dashboard

Waarom branding belangrijk is voor marketing

Dynamische advertenties met ad customizers