Existuje celá řada důvodů, proč můžete chtít odstranit své URL z vyhledávače. Ať už váš web napadl hacker a vytvořil nechtěné stránky nebo jste třeba přešli na nový web a už nenabízíte větší množství produktů (a ani je nemáte kam přesměrovat). V každém případě se hodí vědět, jak na to.
Co je to vlastně ta indexace?
Index představuje přehled vašich stránek, o kterých vyhledávače ví a berou je v potaz. Měly by tam být ty nejdůležitější, na které se chcete zobrazovat. Naopak ty, co mohou uškodit nebo pro vás nejsou zásadní, je dobré z indexace vyřadit.
Samotné indexování funguje tak, že robot prochází jednotlivé stránky webu a ty si ukládá do databáze. Bot má však jen omezený crawl budget. Pokud tedy máte velký web, může se stát, že se na nějaký obsah nedostane. Když pak hledáte určitý dotaz, vyhledávač jde do databáze zaindexovaných stránek a tam pro vás hledá odpověď. Není-li stránka zaindexovaná, nemůže ji zobrazit ve výsledcích vyhledávání.
Možnosti zákazu indexace stránek
Jedním z řešení je nástroj v Google Search Consoli, zejména pokud se potřebujete zbavit pouze některých stránek. To je však uplatnitelné pouze na Googlu. Ten ale uvádí, že jde pouze o dočasné řešení. Aby se stránka přestala opravdu zobrazovat a Google ji odstranil z indexu, zaveďte noindex do HTML kódu meta tag nebo do hlavičky HTML.
Pokyn pro vyhledávače na vyřazení stránky z indexu, respektive příkaz na ne-indexaci stránky pro všechny vyhledávače, bude vypadat následovně:
<meta name=“robots” content=“noindex, nofollow”>
Pamatujte také na to, že aby se ke změně parametru meta robots dostal, nesmí mít stránka zakázané procházení v souboru robots.txt. Zajímavé informace najdete případně i na stránkách nápovědy Google.
Další možností je, že pro nechtěné URL nastavíte kód 404 nebo 410. A ideálně z nich odstraníte obsah nebo soubory, pokud se tam nacházejí. Bez těchto dalších kroků zůstane adresa světu skrytá jen 90 dnů.
Pro Seznam nejde stránky z indexu vyřadit ručně, můžete tomu ale pomoci třemi způsoby:
- Stránky budou vracet stavové kódy 404 nebo 410, přičemž je lepší nastavit rovnou 410, kdy vyhledávači řeknete, že stránka byla trvale odstraněna. Při 404 to trvá déle, protože tento stavový kód chápe jako neukončený stav. Často totiž nastává omylem a Seznam bot mu dává ještě možnost se vrátit mezi existující stránky. A tak vyčkává.
- Zakážete indexaci stránky v HTML v meta tagu robots. Vypadat to bude následovně:
<html>
<head>
<meta name=“robots“ content=“noindex, nofollow“>
<title>Titulek stránky</title>
</head>
<body>
V tomto případě ji Seznam odstraní z indexu, ale návštěvníci se na stránku na vašem webu dostanou.
- Stránka bude z indexu odstraněná, pokud automatickému indexování brání jedna z těchto příčin: chybný DNS záznam domény, nedostupnost DNS serverů nebo serveru, kde je web hostován.
Odebrání stovek či tisíců stránek by vám ale tímto způsobem zabralo velké množství času. V první fázi opět nastavte webové stránky jako noindex nebo 404. Poté, aby to vyhledávač zjistil co nejdříve, nahrajte tyto URL do dočasné sitemapy s datem poslední úpravy. A to v den, kdy jste změnili status či dali, že nechcete stránky indexovat. Takto dáte vyhledávači rychleji vědět o změnách.
Propisování již neexistujících stránek do Google sitelinks
O něco vzácnější situace může nastat, pokud na svém webu budete mít platnou URL, na které změníte obsah (zejména titulek) a nežádoucí informace se budou propisovat do Google Sitelinks.
Příklad nežádoucích informací v sitelinks:
Jak tato situace vznikla? Web Kafec.cz měl pravděpodobně na webu URL, která byla platná a zároveň byla již dříve zařazena Googlem jako jedna z položek sitelinks. Titulek této URL se změnil na „Chyba!“ a URL byla stále platná se stavovým kódem 200. Proto byla stále v indexu, Google tuto stránku nepovažoval za chybu.
Pokud by tato situace nastala i u vás, podívejte se, jak to opravit. Bohužel aktuálně není v GSC možnost tyto sitelinks jakkoliv upravovat. Proto je třeba hledat jiné cestičky, jak z této polízanice ven.
- Prověřili jsme technické aspekty na webu, které by mohly způsobovat uvíznutí této stránky v indexu. Stránka se přesměrovávala přes 301 na novou URL.
- URL byla navštívena před delší dobou (než vznikl samotný problém). To znamená, že bylo třeba najít cestu, jak vyhledávač informovat o již neexistující stránce a urychlit proces „de-indexace“.
- Požádali jsme o znovuindexování Googlem (v GSC).
- Odeslali jsme zpětnou vazbu na výsledek vyhledávání.
- Odeslali jsme žádost o odstranění starého obsahu.
A pak stačilo se jen trochu obrnit trpělivostí a ta-dá, zhruba za 14 dní byl index opraven.
Jak si vedeme?
Může se stát, že vyhledávač neví o některých stránkách, které chcete indexovat a naopak indexuje ty, které vlastně nechcete. Proto je dobré si svůj stav indexu jednou za čas zkontrolovat.
Máme pro vás jeden snadný, i když ne na 100 % spolehlivý způsob. Použijte operátor site:. Zadáte do vyhledávače například site:proficio.com a uvidíte počet stránek i konkrétní URL, o kterých vyhledávač ví.
Pokud máte možnost přihlášení do Marketing Mineru, můžete si stav indexace jednoduše zjistit tam. Je to spolehlivější způsob.
- Kliknete na možnost vytvořit „Nový report“ a vyberete URL Miner.
- Potřebujete zkontrolovat URL, které mají vyhledávače indexovat? Použijte „Nahrát z URL“ a vložte svoji sitemapu.
- V dalším kroku zaškrtnete Fulltext Index Checker.
- Chcete zkontrolovat i ty adresy, které nejsou v sitemapě? Použijte „Nahrát soubory“ a MM vám stažené URL projede. Je to jednodušší než vkládat jednotlivé URL přes funkci „Schránka“.
Co si odnést na závěr
Oproti ostatním nabízí Google o jednu možnost navíc, jak vyřadit stránky z indexu. V dalších případech buďto nastavíte odpovídající stavové kódy nebo využijete možnosti zákazu procházení v robots.txt či v hlavičce HTML kódu.
Zákaz indexace nejvíce využijete, pokud máte velký web a potřebujete optimalizovat svůj crawl budget. Postup se však hodí znát i pro jiné případy. Například když zrušíte stránku, která neměla velkou návštěvnost, není na ní zajímavý obsah a nemáte ji kam přesměrovat. Teď už víte, že nejjednodušší způsob, jak se jí zbavit, je zakázat indexaci.