Blog o nastavení pluginu WordPress a optimalizaci pro vyhledávače pro začínající webmastery. Rychlý způsob, jak zkontrolovat indexování stránek v Yandex a Google Submit pro indexování

Poměrně často nelze v Yandexu najít nový web. I když jeho název zadáte do vyhledávacího pole. Důvody pro to mohou být různé. Někdy vyhledávače prostě ještě nevědí, že se objevil nový zdroj. Chcete-li zjistit, co se děje, a vyřešit problém, musíte svůj web zaregistrovat u Yandex.Webmaster.

Co je indexování stránek v Yandexu

Nejprve si ujasněme, jak se vyhledávače obecně dozvídají o nových webech nebo jejich změnách. Yandex má speciální program zvaný vyhledávací robot. Tento robot surfuje po internetu a hledá nové stránky. Občas zajde do starých a kontroluje, jestli se na nich neobjevilo něco nového.

Když robot najde užitečnou stránku, přidá ji do své databáze. Tato databáze se nazývá vyhledávací index. Když něco hledáme ve vyhledávání, vidíme stránky z této databáze. Indexování je, když tam robot přidává nové dokumenty.

Robot nemůže každý den procházet celý internet. Nemá na to dost sil. Proto potřebuje pomoc - hlásit nové stránky nebo změny na starých.

Co je Yandex.Webmaster a proč je potřeba?

Yandex.Webmaster je oficiální služba od společnosti Yandex. Je třeba k němu přidat webovou stránku, aby robot věděl o její existenci. S jeho pomocí mohou vlastníci zdrojů (webmasteři) prokázat, že se jedná o jejich stránky.

Můžete také vidět v Webmaster:

  • kdy a kde robot vstoupil;
  • které stránky indexoval a které ne;
  • jaká klíčová slova lidé vyhledávají?
  • jsou tam nějaké technické chyby?

Prostřednictvím této služby si můžete založit web: nastavit region, ceny zboží, chránit své texty před krádeží. Můžete požádat robota, aby znovu navštívil stránky, kde jste provedli změny. Yandex.Webmaster usnadňuje přechod na https nebo jinou doménu.

Jak přidat nový web na Yandex.Webmaster

Přejděte na panel Webmaster. Klikněte na "Přihlásit". Můžete zadat přihlašovací jméno a heslo, které používáte k přihlášení do pošty Yandex. Pokud ho ještě nemáte účet, budete se muset zaregistrovat.

Po přihlášení se dostanete na stránku se seznamem přidaných zdrojů. Pokud jste službu dosud nevyužívali, bude seznam prázdný. Chcete-li přidat nový zdroj, klikněte na tlačítko „+“.

Na další stránce zadejte adresu svého webu a potvrďte její přidání.

V poslední fázi musíte potvrdit svá práva- dokažte Yandexu, že jste vlastníkem. Existuje několik způsobů, jak to udělat.

Jak potvrdit práva na web v Yandex.Webmaster

Nejjednodušší způsob, jak potvrdit práva v Yandex.Webmaster, je přidat soubor na web. Chcete-li to provést, klikněte na kartu „Soubor HTML“.

Stáhne se malý soubor. Tento soubor teď budete potřebovat, takže si ho uložte někam, kde ho uvidíte. Například na ploše. Nepřejmenovávejte soubor! Na tom není potřeba nic měnit.

Nyní nahrajte tento soubor na svůj web. Obvykle se k tomu používá správci souborů, Ale uživatelé nic z toho dělat nemusí. Stačí jít do back office a kliknout na "Soubory". Poté v horní části stránky - „Přidat soubor“. Vyberte soubor, který jste dříve stáhli.

Poté se vraťte na panel Yandex.Webmaster a klikněte na tlačítko „Zkontrolovat“. Po úspěšném potvrzení přístupových práv se vaše stránky objeví v seznamu přidaných. Tím jste informovali Yandex.Webmaster o novém webu.

Meta tag Yandex.Webmaster

Někdy výše popsaná metoda nefunguje a vlastníci nemohou potvrdit práva na web v aplikaci Webmaster. V tomto případě můžete zkusit jinou metodu: přidejte do šablony řádek kódu.

V aplikaci Webmaster přejděte na kartu "Meta Tag".. Uvidíte řádek, který je třeba přidat do kódu HTML.

Uživatelé mohou kontaktovat technickou podporu a požádat o vložení tohoto kódu. To bude provedeno v rámci bezplatné revize.

Když to dělají v aplikaci Webmaster klikněte na tlačítko „Zkontrolovat“.. Gratulujeme, zaregistrovali jste své stránky do vyhledávače!

Předběžné nastavení Yandex.Webmaster

Stránka byla přidána do vyhledávání, nyní k vám robot určitě přijde a zaindexuje ji. Obvykle to trvá až 7 dní.

Přidejte odkaz do souboru Sitemap

Aby robot indexoval zdroj rychleji, přidejte soubor sitemap.xml do správce webu. Tento soubor obsahuje adresy všech stránek zdroje.

Internetové obchody již mají tento soubor nakonfigurován a měl by být automaticky přidán do Webmaster. Pokud se tak nestane, přidejte odkaz na sitemap.xml v sekci „Indexování“ - „Soubory Sitemap“.

Zkontrolujte soubor robots.txt

V souboru robots.txt označte stránky, které robot nemusí navštěvovat. Jedná se o košík, pokladnu, back office a další technické dokumenty.

Ve výchozím nastavení vytváří soubor robots.txt, který není třeba upravovat. Pro každý případ doporučujeme zkontrolovat chyby v robotech. Chcete-li to provést, přejděte na „Nástroje“ - „Analýza souboru robots.txt“.

Nastavte oblast webu

Na stránce „Informace o webu“ - „Region“ můžete nastavit region webu. U internetových obchodů se jedná o města, regiony a země, kam je zakoupené zboží doručováno. Pokud nemáte obchod, ale adresář nebo blog, pak region bude celý svět.

Nastavte oblast prodeje, jak je znázorněno na snímku obrazovky:

K čemu dalšímu je webmaster užitečný?

Na stránce " Vyhledávací dotazy» můžete vidět fráze, které k vám přijdou z vyhledávání.

Sekce „Indexování“ zobrazuje informace o tom, kdy byl robot na webu a kolik stránek našel. Podsekce „Přesun webu“ vám pomůže, pokud se rozhodnete nainstalovat a přejít na https. Mimořádně užitečná je také podsekce „Page Retraversal“. V něm můžete robotovi označit stránky, na kterých se informace změnily. Při další návštěvě je pak robot nejprve zaindexuje.

Na stránce „Produkty a ceny“ v části „Informace o webu“ můžete poskytnout informace o svém internetovém obchodě. K tomu musí být zdroj nakonfigurován tak, aby nahrál data o produktech a cenách ve formátu YML. Na správné nastavení Ceny a informace o doručení se zobrazí ve výsledcích vyhledávání na produktových stránkách.

Chcete-li zlepšit viditelnost své společnosti ve službách Yandex, měli byste použít sekci „Užitečné služby“. V Yandex.Directory můžete zadat telefonní číslo, adresu vašeho obchodu a otevírací dobu. Tyto informace se zobrazí přímo ve výsledcích Yandex. Tím se také přidáte do Yandex.Maps.

Yandex.Metrica - další důležitý nástroj pro vlastníka internetového zdroje, který zobrazuje údaje o provozu. Statistiky a dynamika návštěvnosti stránek jsou zobrazeny ve snadno analyzovatelných tabulkách, grafech a grafech.

Po připojení ke službám Yandex.Webmaster a Yandex.Metrica získáte dostatečné množství informací pro správu pozic a návštěvnosti webu. Jedná se o nepostradatelné nástroje pro majitele webových stránek, kteří chtějí propagovat své zdroje v nejpopulárnějším vyhledávači v Rusku.

Dalším krokem v propagaci webových stránek je prostřednictvím podobné služby Search Console. To je vše, hodně štěstí při propagaci!

Co je indexování stránek? jak se to stane? Odpovědi na tyto a další otázky najdete v článku. ve vyhledávačích) je proces přidávání informací o webu do databáze robotem vyhledávače, který se následně používá k vyhledávání informací o webových projektech, které takovou procedurou prošly.

Data o webových zdrojích se nejčastěji skládají z klíčová slova, články, odkazy, dokumenty. Indexovat lze také zvuk, obrázky a tak dále. Je známo, že algoritmus pro identifikaci klíčových slov závisí na vyhledávacím zařízení.

Existují určitá omezení ohledně typů indexovaných informací (soubory flash, javascript).

Řízení inkluze

Indexování webu je složitý proces. Chcete-li to spravovat (například zakázat zahrnutí konkrétní stránky), musíte použít soubor robots.txt a předpisy, jako jsou Allow, Disallow, Crawl-delay, User-agent a další.

Tagy se také používají k indexování a rekvizity , skrývá obsah zdroje před Google roboti a Yandex (Yahoo používá značku ).

Ve vyhledávači Goglle jsou nové stránky indexovány od několika dnů do jednoho týdne a v Yandexu - od jednoho týdne do čtyř.

Chcete, aby se vaše stránky zobrazovaly ve výsledcích vyhledávačů? Poté jej musí zpracovat Rambler, Yandex, Google, Yahoo a tak dále. O existenci vašeho webu musíte informovat vyhledávače (pavouky, systémy) a ony je pak celé nebo částečně prolezou.

Mnoho webů nebylo léta indexováno. Informace na nich obsažené nevidí nikdo kromě jejich majitelů.

Metody zpracování

Indexování stránek lze provést několika způsoby:

  1. První možností je přidat jej ručně. Údaje o svých stránkách musíte zadat prostřednictvím speciálních formulářů nabízených vyhledávači.
  2. V druhém případě robot vyhledávače sám najde váš web pomocí odkazů a zaindexuje je. Může najít vaše stránky pomocí odkazů z jiných zdrojů, které vedou k vašemu projektu. Tato metoda je nejúčinnější. Pokud vyhledávač najde stránky tímto způsobem, považuje to za významné.

Termíny

Indexování stránek není příliš rychlé. Termíny se liší, od 1-2 týdnů. Odkazy z autoritativních zdrojů (s výborným PR a sýkorkami) výrazně urychlují umístění webu v databázi vyhledávačů. Dnes je Google považován za nejpomalejší, i když do roku 2012 mohl tuto práci dělat za týden. Bohužel se vše velmi rychle mění. Je známo, že Mail.ru pracuje s weby v této oblasti asi šest měsíců.

Ne každý specialista umí indexovat web ve vyhledávačích. Načasování přidávání nových stránek do databáze webu, který již byl zpracován vyhledávači, je ovlivněn četností aktualizace jeho obsahu. Pokud se u zdroje neustále objevují čerstvé informace, systém je považuje za často aktualizované a užitečné pro lidi. V tomto případě se jeho práce urychlí.

Průběh indexování webových stránek můžete sledovat ve speciálních sekcích pro webmastery nebo na vyhledávačích.

Změny

Už jsme tedy přišli na to, jak je stránka indexována. Je třeba poznamenat, že databáze vyhledávačů jsou často aktualizovány. Počet přidaných stránek vašeho projektu se proto může změnit (buď snížit nebo zvýšit) z následujících důvodů:

  • sankce vyhledávačů vůči webovým stránkám;
  • přítomnost chyb na webu;
  • změny v algoritmech vyhledávačů;
  • nechutný hosting (nepřístupnost serveru, na kterém je projekt umístěn) a tak dále.

Yandex odpovídá na běžné otázky

Yandex je vyhledávač používaný mnoha uživateli. V počtu zpracovaných výzkumných požadavků je na pátém místě mezi vyhledávacími systémy na světě. Pokud jste do něj přidali web, může jeho přidání do databáze trvat příliš dlouho.

Přidání adresy URL nezaručuje, že bude indexována. Toto je jen jedna z metod, kterými systém informuje robota, že se objevil nový zdroj. Pokud vaše stránky obsahují málo nebo žádné odkazy z jiných stránek, jejich přidání vám pomůže rychleji je objevit.

Pokud k indexování nedojde, musíte zkontrolovat, zda v době vytvoření požadavku robotem Yandex nedošlo na serveru k nějakým selháním. Pokud server ohlásí chybu, robot ukončí svou práci a pokusí se ji dokončit v komplexním procházení. Zaměstnanci Yandexu nemohou zvýšit rychlost přidávání stránek do databáze vyhledávače.

Indexování webu v Yandexu je poměrně obtížný úkol. Nevíte, jak přidat zdroj do vyhledávače? Pokud na něj existují odkazy z jiných webových stránek, nemusíte web přidávat konkrétně - robot jej automaticky najde a zaindexuje. Pokud takové odkazy nemáte, můžete vyhledávačům sdělit, že vaše stránky existují, pomocí formuláře Přidat adresu URL.

Je důležité si uvědomit, že přidání adresy URL nezaručuje, že váš výtvor bude indexován (nebo jak rychle bude indexován).

Mnoho lidí se zajímá o to, jak dlouho trvá indexování webu v Yandexu. Zaměstnanci této společnosti neposkytují záruky ani nepředvídají termíny. Od doby, kdy se robot o webu dozvěděl, se jeho stránky zpravidla objevují ve vyhledávání do dvou dnů, někdy po několika týdnech.

Proces zpracování

Yandex je vyhledávač, který vyžaduje přesnost a pozornost. Indexování stránek se skládá ze tří částí:

  1. Vyhledávací robot prochází stránky zdrojů.
  2. Obsah stránek je zaznamenán v databázi (indexu) vyhledávacího systému.
  3. Po 2-4 týdnech, po aktualizaci databáze, můžete vidět výsledky. Vaše stránky se objeví (nebo nezobrazí) ve výsledcích vyhledávání.

Kontrola indexování

Jak zkontrolovat indexování stránek? Existují tři způsoby, jak to udělat:

  1. Do vyhledávacího pole zadejte název své firmy (například „Yandex“) a zkontrolujte každý odkaz na první a druhé stránce. Pokud tam najdete URL svého duchovního dítěte, znamená to, že robot dokončil svůj úkol.
  2. Do vyhledávacího pole můžete zadat adresu URL svého webu. Budete moci vidět, kolik internetových listů je zobrazeno, tedy indexováno.
  3. Zaregistrujte se na stránkách webmasterů v Mail.ru, Google, Yandex. Poté, co projdete ověřením webu, budete moci vidět výsledky indexování a dalších služeb vyhledávače vytvořených pro zlepšení výkonu vašeho zdroje.

Proč Yandex odmítá?

Indexování webu v Google se provádí následovně: robot zadá do databáze všechny stránky webu, nekvalitní i kvalitní, bez výběru. Do žebříčku jsou ale zahrnuty pouze užitečné dokumenty. A Yandex okamžitě vylučuje veškerý webový odpad. Může indexovat jakoukoli stránku, ale vyhledávač nakonec odstraní všechny odpadky.

Oba systémy mají další index. U obou mají nekvalitní stránky vliv na hodnocení webu jako celku. Funguje zde jednoduchá filozofie. Oblíbené zdroje konkrétního uživatele se ve výsledcích vyhledávání umístí výše. Ale ten samý jedinec bude mít problém najít web, který se mu minule nelíbil.

Proto je nejprve nutné chránit kopie webových dokumentů před indexováním, kontrolovat prázdné stránky a zamezit vracení nekvalitního obsahu.

Zrychlení Yandex

Jak mohu urychlit indexování stránek v Yandexu? Je třeba dodržet následující kroky:

Mezilehlé akce

Co je třeba udělat, dokud nebude webová stránka indexována Yandexem? Domácí vyhledávač by měl web považovat za primární zdroj. Proto je nutné ještě před publikováním článku přidat jeho obsah do formuláře „Konkrétní texty“. V opačném případě si plagiátoři zkopírují záznam do svého zdroje a skončí jako první v databázi. Nakonec budou uznáni jako autoři.

Databáze Google

Zákaz

Co je zákaz indexování stránek? Můžete jej použít buď na celou stránku, nebo na její samostatnou část (odkaz nebo část textu). Ve skutečnosti existuje jak globální, tak lokální zákaz indexování. Jak je to implementováno?

Zvažme zákaz přidávání webové stránky do databáze vyhledávače v Robots.txt. Pomocí souboru robots.txt můžete vyloučit indexování jedné stránky nebo celé kategorie zdrojů takto:

  1. User-agent: *
  2. Disallow: /kolobok.html
  3. Disallow: /foto/

První bod označuje, že instrukce jsou definovány pro všechny podsystémy, druhý označuje, že indexování souboru kolobok.html je zakázáno a třetí neumožňuje přidání celého obsahu složky foto do databáze. Pokud potřebujete vyloučit několik stránek nebo složek, zadejte je všechny v Robots.

Abyste zabránili indexování jednotlivých internetových listů, můžete použít metaznačku robots. Od robots.txt se liší tím, že dává pokyny všem podsystémům najednou. Tento meta tag poslouchá obecné zásady html formátu. Měl by být umístěn v záhlaví stránky mezi položkou Ban, například by mohl být zapsán takto: .

Ajax

Jak Yandex indexuje stránky Ajax? Dnes technologii Ajax používá mnoho vývojářů webových stránek. Samozřejmě má velké možnosti. S jeho pomocí můžete vytvářet rychlé a produktivní interaktivní webové stránky.

Systém však „vidí“ webový list jinak než uživatel a prohlížeč. Například se člověk dívá na pohodlné rozhraní s pohyblivě načtenými internetovými listy. Pro vyhledávacího robota může být obsah stejné stránky prázdný nebo prezentovaný jako jiný statický HTML obsah, pro jehož generování se nepoužívají skripty.

Chcete-li vytvořit stránky Ajax, můžete použít adresu URL s #, ale robot vyhledávače ji nepoužívá. Obvykle je oddělena část adresy URL za znakem #. To je potřeba vzít v úvahu. Proto místo adresy URL jako http://site.ru/#example zadá požadavek na hlavní stránku zdroje na adrese http://site.ru. To znamená, že obsah internetového listu nemusí být zahrnut do databáze. V důsledku toho se nezobrazí ve výsledcích vyhledávání.

Aby se zlepšilo indexování webů Ajax, Yandex podporoval změny ve vyhledávacím robotu a pravidlech pro zpracování adres URL takových webů. Dnes mohou webmasteři naznačit vyhledávači Yandex potřebu indexování vytvořením vhodného schématu ve struktuře zdrojů. K tomu potřebujete:

  1. Nahraďte symbol # v adrese URL stránky znakem #!. Nyní robot pochopí, že si může vyžádat HTML verzi obsahu pro tento internetový list.
  2. HTML verze obsahu takové stránky by měla být umístěna na URL, kde #! nahrazeno?_escaped_fragment_=.

Co je indexování? Jedná se o proces, kdy robot přijímá obsah stránek vašeho webu a zahrnuje tento obsah do výsledků vyhledávání. Pokud se podíváme na čísla, databáze indexovacího robota obsahuje biliony adres webových stránek. Každý den robot požaduje miliardy takových adres.

Ale celý tento velký proces indexování internetu lze rozdělit do malých fází:


Za prvé, indexovací robot musí vědět, že se na vašem webu objevila stránka. Například indexováním jiných stránek na internetu, vyhledáním odkazů nebo stažením setu nemp. Dozvěděli jsme se o stránce, poté plánujeme tuto stránku procházet, odesílat data na váš server, abychom si tuto stránku webu vyžádali, obdržet obsah a zahrnout jej do výsledků vyhledávání.

Celý tento proces je procesem výměny indexovacího robota s vaším webem. Pokud se požadavky zaslané indexovacím robotem prakticky nemění a mění se pouze adresa stránky, pak odpověď vašeho serveru na požadavek robota na stránku závisí na mnoha faktorech:

  • z nastavení CMS;
  • z nastavení poskytovatele hostingu;
  • z práce zprostředkujícího poskytovatele.

Tato odpověď se právě mění. Nejprve při požadavku na stránku obdrží robot z vašeho webu následující servisní odpověď:


Jedná se o HTTP hlavičky. Obsahují různé servisní informace, které robotovi umožňují pochopit, jaký obsah bude nyní přenášen.

Chtěl bych se zaměřit na první hlavičku - to je kód odpovědi HTTP, který indexovacímu robotu ukazuje stav stránky, kterou robot požadoval.

Existuje několik desítek takových stavů kódu HTTP:


Řeknu vám o těch nejoblíbenějších. Nejběžnějším kódem odpovědi je HTTP-200. Stránka je dostupná, lze ji indexovat, zařadit do výsledků vyhledávání, vše v pořádku.

Opakem tohoto stavu je HTTP-404. Stránka není na webu, není co indexovat a není co zahrnout do vyhledávání. Při změně struktury stránek a změně adres vnitřní stránky Doporučujeme nastavit server 301 pro přesměrování. Na to robota jen upozorní stará stránka přesunuta na novou adresu a musí být zahrnuta Výsledky vyhledávání přesně na novou adresu.

Pokud se obsah stránky od poslední návštěvy robota nezměnil, je nejlepší vrátit kód HTTP-304. Robot pochopí, že není potřeba aktualizovat stránky ve výsledcích vyhledávání a obsah se také nepřenese.

Pokud je váš web dostupný pouze po krátkou dobu, například při nějaké práci na serveru, je nejlepší nakonfigurovat HTTP-503. Robotovi to oznámí, že stránka a server jsou momentálně nedostupné, musíte se vrátit o něco později. V případě krátkodobé nedostupnosti to zabrání vyloučení stránek z výsledků vyhledávání.

Kromě těchto HTTP kódů a stavů stránek potřebujete také přímo získat obsah samotné stránky. Pokud pro běžného návštěvníka stránka vypadá takto:


toto jsou obrázky, text, navigace, vše je velmi krásné, pak je pro indexujícího robota jakákoli stránka pouze sadou zdrojového kódu, HTML kódu:


Různé meta tagy, textový obsah, odkazy, skripty, spousta nejrůznějších informací. Robot jej shromáždí a zařadí do výsledků vyhledávání. Zdá se, že vše je jednoduché: požádali o stránku, obdrželi stav, obdrželi obsah a zahrnuli jej do vyhledávání.

Není však bez důvodu, že vyhledávací služba Yandex dostává více než 500 dopisů od webmasterů a vlastníků stránek, které uvádějí, že s odpovědí serveru nastaly určité problémy.

Všechny tyto problémy lze rozdělit do dvou částí:

Jedná se o problémy s kódem odezvy HTTP a problémy s kódem HTML, s přímým obsahem stránek. Příčin těchto problémů může být obrovské množství. Nejběžnější je, že indexovací robot je blokován poskytovatelem hostingu.


Například jste spustili webovou stránku, dodal nová sekce. Robot začne navštěvovat vaše stránky častěji, čímž se zvýší zatížení serveru. Poskytovatel hostingu to vidí na svém monitorování, zablokuje indexovacího robota, a proto se robot nemůže dostat na váš web. Přejdete ke svému zdroji - vše je v pořádku, vše funguje, stránky jsou krásné, vše se otevírá, vše je skvělé, ale robot nemůže indexovat web. Pokud je stránka dočasně nedostupná, například pokud jste zapomněli zaplatit Doménové jméno, web je několik dní mimo provoz. Robot přijde na stránku, je nepřístupný, za takových podmínek může doslova po chvíli zmizet z výsledků vyhledávání.

Nesprávné nastavení CMS, například při aktualizaci nebo přechodu na jiný CMS, při aktualizaci designu může také způsobit, že stránky na vašem webu zmizí z výsledků vyhledávání, pokud je nastavení nesprávné. Například přítomnost zakazujícího meta tagu v zdrojový kód stránky webu, nesprávné nastavení kanonického atributu. Ujistěte se, že po všech změnách, které na webu provedete, jsou stránky přístupné robotovi.

S tím vám pomůže nástroj Yandex. Webmasterovi, aby zkontroloval odpověď serveru:


Můžete vidět, jaké HTTP hlavičky váš server vrací robotovi, a obsah samotných stránek.


Sekce „indexování“ obsahuje statistiky, kde můžete vidět, které stránky jsou vyloučeny, dynamiku změn těchto ukazatelů a provádět různá třídění a filtrování.


Také jsem již dnes mluvil o této sekci, sekci „diagnostika webu“. Pokud se vaše stránky stanou pro robota nedostupné, obdržíte odpovídající upozornění a doporučení. Jak to lze opravit? Pokud žádné takové problémy nenastanou, stránka je přístupná, splňuje kódy 200 a obsahuje správný obsah, pak robot začne automatický režim navštívit všechny stránky, které zná. To ne vždy vede k požadovaným důsledkům, takže aktivity robota mohou být určitým způsobem omezeny. K tomu existuje soubor robots.txt. Promluvíme si o tom v další části.

Robots.txt

Samotný soubor robots.txt je malý Textový dokument, leží v kořenové složce webu a obsahuje přísná pravidla pro indexovacího robota, která je nutné dodržovat při procházení webu. Výhody souboru robots.txt jsou v tom, že k jeho používání nepotřebujete žádné speciální nebo specializované znalosti.

Jediné, co musíte udělat, je otevřít Poznámkový blok, zadat určitá pravidla formátu a poté soubor jednoduše uložit na server. Během jednoho dne začne robot tato pravidla používat.

Pokud si vezmeme příklad jednoduchého souboru robots.txt, zde je, jen na dalším snímku:


Direktiva „User-Agent:“ ukazuje, pro které roboty je pravidlo určeno, povoluje/zakazuje direktivy a pomocné direktivy Sitemap a Host. Trochu teorie, rád bych přešel k praxi.

Před několika měsíci jsem si chtěl koupit krokoměr, a tak jsem se obrátil na Yandex. Trh o pomoc s výběrem. Přesunuto z hlavní stránky Yandex na Yandex. Trh a dostal se domovská stránka servis.


Níže vidíte adresu stránky, na kterou jsem šel. Adresa samotné služby také přidala identifikátor mě jako uživatele na webu.

Poté jsem přešel do sekce „katalog“.


Vybral jsem požadovanou podsekci a nakonfiguroval parametry řazení, cenu, filtr, způsob řazení a výrobce.

Dostal jsem seznam produktů a adresa stránky se již rozrostla.

Přešel jsem na požadovaný produkt, klikl na tlačítko „přidat do košíku“ a pokračoval v pokladně.

Během mé krátké cesty se adresy stránek určitým způsobem změnily.


Byly k nim přidány parametry služby, které mě identifikovaly jako uživatele, nastavily řazení a naznačily majiteli webu, odkud jsem na tu či onu stránku webu přišel.

Myslím, že takové stránky, stránky služeb, nebudou pro uživatele vyhledávačů příliš zajímavé. Ale pokud jsou dostupné indexovacímu robotu, mohou být zahrnuty do vyhledávání, protože robot se v podstatě chová jako uživatel.

Přejde na jednu stránku, uvidí odkaz, na který může kliknout, přejde na něj, načte data do databáze svého robota a pokračuje v procházení celého webu. Do této kategorie takových adres patří také osobní údaje uživatelů, například informace o doručení nebo kontaktní údaje uživatelů.

Přirozeně je lepší je zakázat. Přesně s tím vám pomůže soubor robots.txt. Dnes večer můžete přejít na svůj web na konci Webmasteru, kliknout a podívat se, které stránky jsou skutečně dostupné.

Pro kontrolu robots.txt existuje speciální nástroj v Webmaster:


Můžete si stáhnout, zadat adresy stránek, zjistit, zda jsou pro robota přístupné nebo ne.


Proveďte nějaké změny a podívejte se, jak robot na tyto změny reaguje.

Chyby při práci se souborem robots.txt

Kromě takového pozitivního efektu – zavírání stránek služby, může robots.txt při nesprávné manipulaci hrát krutý vtip.

Za prvé, nejčastějším problémem při používání robots.txt je zavírání skutečně nezbytných stránek webu, těch, které by měly být ve vyhledávání a zobrazeny pro dotazy. Než provedete změny v souboru robots.txt, zkontrolujte, zda se stránka, kterou chcete zavřít, zobrazuje pro vyhledávací dotazy. Možná je stránka s nějakými parametry ve výsledcích vyhledávání a návštěvníci na ni přicházejí z vyhledávání. Proto před použitím a provedením změn v souboru robots.txt zkontrolujte.

Za druhé, pokud váš web používá adresy v azbuce, nebudete je moci uvést v souboru robots.txt přímou formou, musí být zakódovány. Vzhledem k tomu, že robots.txt je mezinárodní standard, který dodržují všichni indexovací roboti, bude určitě nutné je kódovat. Není možné výslovně specifikovat azbuku.

Třetím nejoblíbenějším problémem jsou různá pravidla pro různé roboty různých vyhledávačů. U jednoho indexovacího robota byly všechny indexační stránky uzavřeny, u druhého nebylo uzavřeno vůbec nic. Výsledkem je, že v jednom vyhledávači je vše v pořádku, požadovaná stránka je ve vyhledávání, ale v jiném vyhledávači mohou být odpadky, různé stránky s odpadky a něco jiného. Ujistěte se, že pokud nastavíte zákaz, musí to být provedeno pro všechny indexovací roboty.

Čtvrtým nejoblíbenějším problémem je použití direktivy Crawl-delay, když to není nutné. Tato směrnice vám umožňuje ovlivnit čistotu požadavků od indexovacího robota. Toto je praktický příklad, malý web, umístí se na malý hosting, vše je v pořádku. Přidali jsme velký katalog, přišel robot, viděl hromadu nových stránek, začal na stránky přistupovat častěji, zvýšil se zátěž, stáhl se a stránky se staly nepřístupné. Nastavili jsme direktivu Crawl-delay, robot to vidí, sníží zátěž, vše je v pořádku, web funguje, vše je perfektně indexováno, je ve výsledcích vyhledávání. Po nějaké době se stránka ještě rozroste, je převedena na nový hosting, který je připraven vypořádat se s těmito požadavky, s velkým množstvím požadavků, a zapomenou odstranit direktivu Crawl-delay. Výsledkem je, že robot chápe, že se na vašem webu objevilo mnoho stránek, ale nemůže je indexovat jen kvůli zavedené směrnici. Pokud jste někdy použili direktivu Crawl-delay, ujistěte se, že tam nyní není a že je vaše služba připravena zvládnout zátěž indexovacího robota.


Kromě popsané funkce vám soubor robots.txt umožňuje vyřešit dva velmi důležité úkoly - zbavit se duplikátů na webu a uvést adresu hlavního zrcadla. To je přesně to, o čem budeme hovořit v další části.

Čtyřhra


Duplikáty rozumíme několik stránek stejného webu, které obsahují naprosto identický obsah. Nejběžnějším příkladem jsou stránky s a bez lomítka na konci adresy. Také duplikát může být chápán jako stejný produkt v různých kategoriích.

Například kolečkové brusle mohou být pro dívky, pro chlapce může být stejný model ve dvou částech současně. A do třetice jsou to stránky s nepodstatným parametrem. Stejně jako v příkladu s Yandex. Trh tuto stránku definuje jako „ID relace“, tento parametr v zásadě nemění obsah stránky.

Chcete-li zjistit duplicity a zjistit, na které stránky robot přistupuje, můžete použít Yandex. Webmaster.


Kromě statistik jsou zde i adresy stránek, které si robot stáhl. Uvidíte kód a poslední hovor.

Potíže, ke kterým vedou duplikáty

Co je na dvojicích tak špatného?

Za prvé, robot začne přistupovat k naprosto identickým stránkám webu, což vytváří další zatížení nejen na vašem serveru, ale také ovlivňuje procházení webu jako celku. Robot začne věnovat pozornost duplicitním stránkám, a ne těm stránkám, které je třeba indexovat a zahrnout do výsledků vyhledávání.


Druhým problémem je, že duplicitní stránky, pokud jsou pro robota přístupné, mohou skončit ve výsledcích vyhledávání a soutěžit s hlavními stránkami o dotazy, což přirozeně může negativně ovlivnit nalezený web na určité dotazy.

Jak se můžete vypořádat s duplikáty?

Nejprve doporučuji použít značku „canonical“. za účelem nasměrování robota na hlavní, kanonickou stránku, která by měla být indexována a nalezena ve vyhledávacích dotazech.

Ve druhém případě můžete použít přesměrování serveru 301, například pro situace s lomítkem na konci adresy a bez lomítka. Nastavili jsme přesměrování - neexistují žádné duplikáty.


A za třetí, jak jsem již řekl, toto je soubor robots.txt. Můžete použít jak direktivy deny, tak direktivu Clean-param, abyste se zbavili nepodstatných parametrů.

Zrcadla stránek

Druhým úkolem, který vám robots.txt umožňuje vyřešit, je nasměrovat robota na adresu hlavního zrcadla.


Zrcadla jsou skupina webů, které jsou naprosto identické, jako duplikáty, pouze tyto dva weby se liší. Webmasteři se se zrcadly obvykle setkávají ve dvou případech – když chtějí přejít na novou doménu, nebo když uživatel potřebuje zpřístupnit několik webových adres.

Například víte, že když uživatelé zadají vaši adresu nebo adresu vašeho webu do adresního řádku, často dělají stejnou chybu – překlepou, vloží špatný znak nebo něco jiného. Můžete si zakoupit další doménu, abyste uživatelům neukázali útržek od poskytovatele hostingu, ale web, na který skutečně chtěli jít.

Zaměřme se na první bod, protože právě s tím vznikají problémy při práci se zrcadly nejčastěji.

Doporučuji vám provést celý proces stěhování podle následujících pokynů. Malý návod, který vám umožní vyhnout se různým problémům při přechodu na nový název domény:

Nejprve je potřeba zpřístupnit stránky indexovacímu robotu a umístit na ně naprosto identický obsah. Také se ujistěte, že robot ví o existenci stránek. Nejjednodušší způsob je přidat je do Yandexu. Webmaster a potvrďte práva k nim.

Za druhé, pomocí direktivy Host nasměrujte robota na adresu hlavního zrcadla – toho, který by měl být indexován a měl by být ve výsledcích vyhledávání.

Čeká nás nalepení a přesun všech indikátorů ze starého webu na nový.


Poté můžete nastavit přesměrování ze staré adresy na novou. Jednoduchý návod, pokud se stěhujete, určitě ho použijte. Doufám, že s tím nebudou žádné problémy
pohybující se.

Při práci se zrcadly však přirozeně vznikají chyby.

Za prvé, nejdůležitějším problémem je nedostatek explicitních instrukcí pro indexujícího robota na adresu hlavního zrcadla, adresu, která by měla být ve vyhledávání. Zkontrolujte na svých stránkách, že mají v souboru robots.txt direktivu hostitele a že odkazuje přesně na adresu, kterou chcete ve vyhledávání zobrazit.

Druhým nejoblíbenějším problémem je použití přesměrování ke změně hlavního zrcadla ve stávající skupině zrcadel. Co se děje? Stará adresa, protože přesměrovává, není indexována robotem a je vyloučena z výsledků vyhledávání. V tomto případě se nový web neobjeví ve vyhledávání, protože to není hlavní zrcadlo. Ztratíte návštěvnost, ztratíte návštěvníky, myslím, že tohle nikdo nepotřebuje.


A třetím problémem je nepřístupnost jednoho ze zrcátek při pohybu. Nejčastějším příkladem v této situaci je situace, kdy zkopírovali obsah webu na novou adresu, ale stará adresa byla jednoduše deaktivována, nezaplatili za název domény a ta se stala nedostupnou. Takové stránky samozřejmě nebudou sloučeny, musí být přístupné indexovacímu robotu.

Užitečné odkazy v práci:

  • Více užitečné informace najdete ve službě Yandex.Help.
  • Všechny nástroje, o kterých jsem mluvil, a ještě více - existuje beta verze Yandex.Webmaster.

Odpovědi na otázky

„Děkuji za zprávu. Je nutné zakázat indexování CSS souborů pro robota v robots.txt nebo ne?

V tuto chvíli je nedoporučujeme zavírat. Ano, je lepší opustit CSS a JavaScript, protože nyní pracujeme na tom, abychom zajistili, že indexovací robot začne rozpoznávat skripty na vašem webu i styly a uvidí, jak si vede návštěvník z běžného prohlížeče.

"Povězte mi, jestli jsou adresy URL webu stejné pro staré a nové, je to normální?"

To je v pořádku. V podstatě stačí aktualizovat design, přidat nějaký obsah.

„Web má kategorii a skládá se z několika stránek: lomítko, stránka1, stránka2, například až 10. Všechny stránky mají stejný text kategorie a ukázalo se, že je duplicitní. Bude tento text duplikát nebo by měl být nějak uzavřen, nový rejstřík na druhé a dalších stránkách?

Za prvé, protože stránkování na první stránce a obsah na druhé stránce jsou obecně odlišné, nebudou duplikáty. Musíte ale počítat s tím, že druhá, třetí a další stránkovací stránky se mohou dostat do vyhledávání a zobrazit se na nějaký relevantní dotaz. Lépe ve stránkovacích stránkách bych doporučil použít kanonický atribut, v lepším případě - na stránce, na které se shromažďují všechny produkty, aby robot nezahrnul stránkovací stránky do vyhledávání. Lidé velmi často používají kanonické na první stránce stránkování. Robot přijde na druhou stránku, uvidí produkt, uvidí text, nezařadí stránku do vyhledávání a díky atributu pochopí, že je to první stránkovací stránka, která by měla být zařazena do výsledků vyhledávání. Použijte kanonický a zavřete samotný text, myslím, že není potřeba.

Zdroj (video): Jak nastavit indexování stránek- Alexandr Smirnov

Magomed Čerbizhev

Celkově vzato, pokud je váš zdroj dobrý, dobře vyrobený, pak by neměly být žádné problémy s jeho indexováním. Pokud stránka, i když ne 100%, splňuje požadavky vyhledávačů - „pro lidi“, pak se na vás rádi podívají a indexují vše nové, co přibude.

Ale ať je to jak chce, prvním krokem při propagaci webu je jeho přidání do indexu PS. Dokud není zdroj indexován, není obecně co propagovat, protože vyhledávače o tom vůbec nebudou vědět. Proto se v tomto článku podívám na to, co je indexování stránek v Yandexu a jak odeslat zdroj pro indexování. Řeknu vám také, jak zkontrolovat, zda je web nebo samostatná stránka zahrnuta do indexu Yandex a co dělat pro urychlení indexování Yandexem.

Indexování webu v Yandexu jsou roboti, kteří procházejí vyhledávač yandex vašeho webu a zadávají vše otevřít stránky do databáze. Ruský vyhledávač přidává data o webu do databáze: jeho stránky, obrázky, videa, dokumenty, které lze prohledávat. Vyhledávací robot se také zabývá indexováním odkazů a dalších prvků, které nejsou skryty speciálními značkami a soubory.

Hlavní způsoby indexování zdroje:

    Vynucené - web musíte odeslat k indexování na Yandex prostřednictvím speciálního formuláře.

    Přirozený – vyhledávacímu pavouku se podaří nezávisle najít váš web přesunem z externích zdrojů, které odkazují na web.

Čas potřebný k indexování webu v Yandexu je pro každého jiný a může se pohybovat od několika hodin až po několik týdnů.

To závisí na mnoha faktorech: jaké hodnoty jsou v Sitemap.xml, jak často je zdroj naplněn, jak často se zmínky o webu objevují v jiných zdrojích. Proces indexování je cyklický, takže k vám bude robot přicházet v (téměř) stejných časových intervalech. Ale s jakou frekvencí závisí na výše zmíněných faktorech a konkrétním robotovi.

Pavouk může indexovat celý web (pokud je malý) nebo samostatnou sekci (to platí pro internetové obchody nebo média). Na často aktualizovaných zdrojích, jako jsou média a informační portály, žijí takzvaní rychlí roboti pro rychlé indexování stránek v Yandexu.

Někdy mohou na projektu nastat technické problémy (nebo problémy se serverem); v tomto případě se indexování webu Yandex neuskuteční, a proto se vyhledávač může uchýlit k následujícímu scénáři:

  • okamžitě vyhodit neindexované stránky z databáze;
  • znovu indexovat zdroj po určité době;
  • nastavit stránky, které nebyly indexovány, aby byly vyloučeny z databáze, a pokud je nenajde při opětovném indexování, bude z indexu vyhozen.

Jak urychlit indexování stránek v Yandex

Jak urychlit indexování v Yandexu je běžná otázka na různých fórech pro webmastery. Ve skutečnosti na indexování závisí životnost celého webu: pozice zdroje v PS, počet klientů z nich, popularita projektu, zisk.

Připravil jsem 10 metod, které se vám, doufám, budou hodit. Prvních pět je standardních pro neustálé indexování zdroje a dalších pět vám pomůže urychlit indexování vašeho webu v Yandexu:

    Záložkové služby;

    RSS feed – zajistí vysílání nových materiálů z vašeho zdroje do emailů odběratelů a RSS adresářů;

    výměny odkazů - zajistí stabilní nárůst dofollow odkazů od kvalitních dárců, pokud jsou správně vybráni (jak správně vybírat);

    – pokud jste ještě nezaregistrovali své stránky v adresářích, doporučuji vám tak učinit. Mnoho lidí říká, že adresáře již dávno zemřely nebo že registrace do nich zabije web - to není pravda. Přesněji řečeno, není to úplná pravda, pokud se zaregistrujete do všech adresářů v řadě, váš zdroj tím bude skutečně trpět. Ale se správným výběrem důvěry a dobrými katalogy efekt nepochybně bude.

Kontrola indexování stránek v Yandexu

  • Operátoři webu a adresy URL. Pokud chcete zkontrolovat indexování webu v Yandexu, můžete použít standardní operátory vyhledávačů ..biz. (Samozřejmě místo mé domény je vaše)

  • RDS lišta. Považuji to za nejlepší a nejrychlejší způsob, jak zkontrolovat indexování stránky v Yandexu. Tento plugin lze nainstalovat do všech populárních prohlížečů a okamžitě poskytne podrobné informace o počtu stránek webu v indexu a přítomnosti konkrétního materiálu v něm. S tímto rozšířením nebudete ztrácet čas ručním zadáváním URL ve službách nebo vyhledávání. Obecně to doporučuji, lišta RDS je velmi pohodlná:
  • Serphant služby. Multifunkční zdroj, pomocí kterého můžete analyzovat stránky: hodnocení efektivity a monitorování stránek, analýza stránek konkurentů, kontrola pozic a indexování stránek. Indexování stránek můžete zdarma zkontrolovat pomocí tohoto odkazu: https://serphunt.ru/indexing/. Díky dávkové kontrole (až 50 adres) a vysoké spolehlivosti výsledků je tato služba podle mého názoru jedna ze tří nejlepších.

  • Služba XSEO. Sada nástrojů pro webmastery, v XSEO.in se můžete podívat na indexování stránek v Yandexu. Získejte také mnoho dalších užitečných informací o vašem zdroji:

  • Služby PR-CY a CY-PR. Několik dalších služeb, které vám poskytnou informace o celkovém počtu indexovaných stránek:

  • Služba Sitereport. Výborná služba, která upozorní na všechny vaše chyby při práci na webu. Má také sekci „Indexace“, kde budou uvedeny informace pro každou stránku webu s uvedením, zda je indexována nebo ne ve vyhledávačích. Systémy Yandex a Google. Proto doporučuji používat tento zdroj zjistit problémy na webu a zkontrolovat hromadné indexování Yandex:

S Googlem je vše velmi jednoduché. Svůj web musíte přidat do nástrojů pro webmastery na adrese https://www.google.com/webmasters/tools/, poté vyberte přidaný web, čímž se dostanete do Search Console svého webu. Dále v levé nabídce vyberte sekci „Skenování“ a v ní položku „Zobrazit jako Googlebot“.

Na stránce, která se otevře, zadejte do prázdného pole adresu nové stránky, kterou chceme rychle indexovat (s ohledem na již zadaný název domény webu) a klikněte na tlačítko „Procházet“ vpravo. Počkáme, až bude stránka naskenována a objeví se v horní části tabulky dříve naskenovaných adres podobným způsobem. Dále klikněte na tlačítko „Přidat do indexu“.

Hurá, vaše nová stránka je okamžitě indexována Googlem! Za pár minut jej budete moci najít ve výsledcích vyhledávání Google.

Rychlé indexování stránek v Yandexu

V nová verze byly k dispozici nástroje pro webmastery podobný nástroj pro přidání nových stránek do indexu. V souladu s tím musí být váš web také nejprve přidán do Yandex Webmaster. Dostanete se tam také výběrem požadovaného webu ve webmasteru, poté přejděte do sekce „Indexování“ a vyberte položku „Opětovné procházení stránky“. V okně, které se otevře, zadáme adresy nových stránek, které chceme rychle indexovat (přes odkaz na jednom řádku).

Na rozdíl od Google se indexování v Yandexu zatím nevyskytuje okamžitě, ale snaží se o to usilovat. Pomocí výše uvedených akcí budete robota Yandex informovat nová stránka. A bude indexován během půl hodiny až hodiny - to ukazuje moje osobní zkušenost. Možná rychlost indexování stránek v Yandexu závisí na řadě parametrů (reputace vaší domény, účtu a/nebo dalších). Ve většině případů se tam dá zastavit.

Pokud zjistíte, že stránky vašeho webu jsou špatně indexovány Yandexem, to znamená, že existuje několik obecných doporučení, jak se s tím vypořádat:

  • Nejlepším, ale také obtížným doporučením je nainstalovat na svůj web rychlého bota Yandex. Chcete-li to provést, je vhodné přidávat na stránky každý den čerstvé materiály. Výhodně 2-3 nebo více materiálů. Navíc je přidávejte ne všechny najednou, ale po čase třeba ráno, odpoledne a večer. Ještě lepší by bylo zachovat přibližně stejný harmonogram vydávání (zachovat přibližně stejný čas pro přidávání nových materiálů). Také mnozí doporučují vytvářet RSS kanál web, aby vyhledávací roboti mohli číst aktualizace přímo z něj.
  • Přirozeně ne každý bude moci přidávat nové materiály na web v takových objemech - je dobré, když můžete přidat 2-3 materiály týdně. V tomto případě nemůžete opravdu snít o rychlosti Yandexu, ale pokuste se získat nové stránky do indexu jinými způsoby. Za nejúčinnější z nich se považuje zveřejňování odkazů na nové stránky na upgradované účty Twitter. Používáním speciální programy jako Twidium Accounter můžete „napumpovat“ potřebný počet Twitter účtů a s jejich pomocí rychle vložit nové stránky webu do indexu vyhledávače. Pokud nemáte možnost sami zveřejňovat odkazy na upgradované účty Twitter, můžete si takové příspěvky zakoupit prostřednictvím speciálních burz. Jeden příspěvek s vaším odkazem bude stát v průměru 3-4 rubly a více (v závislosti na síle vybraného účtu). Ale tato možnost bude poměrně drahá.
  • Třetí možností pro rychlou indexaci je využití služby http://getbot.guru/ , která vám za pouhé 3 ruble pomůže dosáhnout požadovaného efektu se zárukou výsledků. Dobře se hodí pro weby se vzácným rozvrhem přidávání nových publikací. Existují i ​​levnější sazby. Na jejich detaily a rozdíly je lepší se podívat na webu samotné služby. Osobně mám služby této služby Jsem s ním velmi spokojený jako s akcelerátorem indexování.

Samozřejmě můžete také přidávat nové příspěvky do záložek sociálních sítí, což by teoreticky mělo také pomoci webu rychle indexovat. Ale účinnost takového přidání bude také záviset na úrovni vašich účtů. Pokud na nich budete mít malou aktivitu a účty používáte jen na takový spam, tak prakticky žádný užitečný výstup nebude.

P.S. s bohatými zkušenostmi je vždy relevantní - kontaktujte nás!

Publikace na dané téma