Блог об настройках плагинов WordPress и поисковой оптимизаций для начинающих вебмастеров. Быстрый способ проверить индексацию страниц в Яндексе и Google Отправить на индексацию

Довольно часто новый сайт не получается найти в Яндексе. Даже если набрать в поисковой строке его название. Причины этого могут быть разные. Иногда поисковики просто еще не знают о том, что появился новый ресурс. Чтобы разобраться, в чём дело и решить проблему, нужно зарегистрировать сайт в Яндекс.Вебмастере.

Что такое индексация сайта в Яндексе

Сначала разберёмся, как поисковики вообще узнают о новых сайтах или изменениях на них. У Яндекса есть специальная программа, которая называется поисковым роботом. Этот робот гуляет по интернету и ищет новые страницы. Иногда он заходит на старые - проверяет, не появилось ли на них что-то новое.

Когда робот находит полезную страницу, он добавляет её в свою базу данных. Эта база называется поисковым индексом. Когда мы ищем что-то в поиске, мы видим сайты из этой базы. Индексирование - это когда робот добавляет туда новые документы.

Робот не может каждый день обходить весь интернет. Ему на это не хватит мощности. Поэтому ему нужно помогать - сообщать о новых страницах или изменениях на старых.

Что такое Яндекс.Вебмастер и зачем он нужен

Яндекс.Вебмастер - это официальный сервис от Яндекса. В него нужно добавить сайт, чтобы робот узнал о его существовании. С его помощью владельцы ресурсов (веб-мастера) могут доказать, что это именно их сайт.

Ещё в Вебмастере можно посмотреть:

  • когда и куда заходил робот;
  • какие страницы он проиндексировал, а какие - нет;
  • по каким ключевым словам приходят люди из поиска;
  • есть ли технические ошибки.

Через этот сервис можно настроить сайт: задать регион, цены товаров, защитить свои тексты от воровства. Можно попросить робота заново зайти на страницы, на которых вы внесли изменения. Яндекс.Вебмастер упрощает переезд на https или другой домен.

Как добавить новый сайт в Яндекс.Вебмастер

Зайдите в панель Вебмастера . Нажмите «Войти». Логин и пароль можно ввести те, которые вы используете для входа на почту Яндекса. Если у вас еще нет учетной записи, придётся зарегистрироваться.

После входа вы попадёте на страницу со списком добавленных ресурсов. Если вы ранее не пользовались сервисом, то список будет пуст. Для добавления нового ресурса нажмите кнопку «+».

На следующей странице введите адрес вашего сайта и подтвердите его добавление.

На последнем этапе нужно подтвердить права - доказать Яндексу, что вы являетесь владельцем. Есть несколько способов это сделать.

Как подтвердить права на сайт в Яндекс.Вебмастер

Самый простой способ подтверждения прав в Яндекс.Вебмастер - добавить файл на сайт . Для этого нажмите на вкладку «HTML-файл».

Скачается небольшой файл. Этот файл сейчас понадобится, поэтому сохраните его куда-нибудь на видное место. Например, на Рабочий стол. Не переименовывайте файл! В нём ничего менять не нужно.

Теперь загрузите этот файл на ваш сайт. Обычно для этого используют файловые менеджеры, но для пользователей ничего этого делать не нужно . Просто зайдите в бэк-офис, нажмите «Файлы». Затем наверху страницы - «Добавить файл». Выберите скачанный ранее файл.

Затем вернитесь в панель Яндекс.Вебмастер и нажмите кнопку «Проверить». После успешного подтверждения прав доступа ваш сайт появится в списке добавленных. Таким образом, вы сообщили в Яндекс.Вебмастер о новом сайте.

Мета-тег Яндекс.Вебмастер

Иногда описанный выше способ не срабатывает, и владельцы не могут подтвердить права на сайт в Вебмастере. В таком случае можно попробовать другой способ: добавить строку кода в шаблон .

В Вебмастере перейдите на вкладку «Мета-тег» . Вы увидите строчку, которую нужно добавить в HTML-код.

Пользователи могут обратиться в техподдержку и попросить вставить этот код. Это будет выполнено в рамках бесплатной доработки.

Когда они сделают это, в Вебмастере нажмите кнопку «Проверить» . Поздравляем, вы зарегистрировали сайт в поисковике!

Предварительная настройка Яндекс.Вебмастер

Сайт добавлен в поиск, теперь робот точно зайдёт к вам и проиндексирует его. Обычно это занимает до 7 дней.

Добавьте ссылку на sitemap

Для того чтобы робот быстрее индексировал ресурс, добавьте в Вебмастер файл sitemap.xml . В этом файле содержатся адреса всех страницах ресурса.

У интернет-магазинов на этот файл уже настроен и должен добавляться в Вебмастер автоматически. Если этого не произошло, добавьте ссылку на sitemap.xml в разделе «Индексирование» - «Файлы Sitemap».

Проверьте robots.txt

В файле robots.txt указывают страницы, на которые роботу заходить не нужно . Это корзина, оформление заказа, бэк-офис и другие технические документы.

По умолчанию создаёт robots.txt, в который не нужно вносить изменения. На всякий случай рекомендуем проверить, нет ли ошибок в robots. Для этого зайдите в «Инструменты» - «Анализ robots.txt».

Задайте регион сайта

На странице «Информация о сайте» - «Региональность» вы можете задать регион сайта. Для интернет-магазинов это те города, регионы и страны, по которым доставляются купленные товары. Если у вас не магазин, а справочник или блог, то регионом будет весь мир.

Задайте регион продаж как показано на скриншоте:

Чем ещё полезен Вебмастер?

На странице «Поисковые запросы» можно видеть фразы, по которым попадают к вам из поиска.

В разделе «Индексирование» выводится информация о том, когда робот был на сайте и сколько страниц он нашёл. Подраздел «Переезд сайта» поможет вам, если вы решили установить и перейти на https. Также крайне полезен подраздел «Переобход страниц». В нём вы можете указать роботу страницы, на которых изменилась информация. Тогда при следующем визите робот проиндексирует их в первую очередь.

На странице «Товары и Цены» раздела «Информация о сайте» можно предоставить информацию о вашем интернет-магазине. Для этого на ресурсе должна быть настроена выгрузка данных о товарах и ценах в формате YML. При правильной настройке в поисковой выдаче страниц товаров будут отображаться цены и информация о доставке.

Если вы хотите улучшить видимость вашей компании в сервисах Яндекса, следует воспользоваться разделом «Полезные сервисы». В Яндекс.Справочнике можно указать телефон и адрес вашего магазина, часы работы. Эта информация будет отображаться прямо в выдаче Яндекса. Также это добавит вас на Яндекс.Карты.

Яндекс.Метрика — еще один важный инструмент владельца интернет-ресурса, показывающий данные о посещаемости. Статистика и динамика посещаемости сайта отображается в удобных для анализа таблицах, диаграммах и графиках.

После подключения к сервисам Яндекс.Вебмастер и Яндекс.Метрика вы будете получать достаточное количество информации для управления позициями сайта и его посещаемостью. Это незаменимые инструменты для владельцев сайтов, желающих продвинуть свои ресурсы в самом популярном в России поисковике.

Следующий шаг в продвижении сайта - через аналогичный сервис Search Console. На этом все, удачи в продвижении!

Что такое индексирование сайта? Как оно происходит? На эти и другие вопросы вы можете найти ответы в статье. в поисковых системах) называют процесс приобщения информации о сайте к базе данных роботом поисковой машины, которая впоследствии используется для розыска сведений на веб-проектах, прошедших такую процедуру.

Данные о веб-ресурсах чаще всего состоят из ключевых слов, статей, ссылок, документов. Индексироваться также могут аудио, изображения и так далее. Известно, что алгоритм выявления ключевых слов зависим от поискового устройства.

На типы индексируемой информации (flash файлы, javascript) существует некоторая лимитация.

Управление приобщением

Индексирование сайта - сложный процесс. Чтобы им управлять (к примеру, запрещать приобщение той или иной страницы), нужно использовать файл robots.txt и такие предписания, как Allow, Disallow, Crawl-delay, User-agent и другие.

Также для ведения индексации применяют теги и реквизит , скрывающие содержимое ресурса от роботов Google и «Яндекса» (Yahoo применяет тег ).

В поисковой системе Goglle новые сайты индексируются от пары дней до одной недели, а в Яндексе - от одной недели до четырёх.

Вы желаете, чтобы ваш сайт показывался в запросах результатов поисковиков? Тогда он должен быть обработан «Рамблером», «Яндексом», Google, Yahoo и так далее. Вы должны сообщить поисковым машинам (паукам, системам) о существовании вашего веб-узла, и тогда они просканируют его полностью или частично.

Многие сайты не индексируются годами. Информацию, которая на них находится, не видит никто, кроме их владельцев.

Способы обработки

Индексирование сайта может выполняться несколькими способами:

  1. Первым вариантом является ручное добавление. Вам нужно ввести данные своего сайта через особые формы, предлагаемые поисковиками.
  2. Во втором случае робот поисковой машины сам находит ваш веб-узел по ссылкам и индексирует его. Он может разыскать ваш сайт по ссылкам с других ресурсов, которые ведут на ваш проект. Этот способ наиболее эффективен. Если поисковик нашёл сайт таким образом, он считает его значительным.

Сроки

Индексирование сайта происходит не слишком быстро. Сроки разные, от 1-2 недель. Ссылки с авторитетных ресурсов (с великолепным PR и Тиц) значительно ускоряют размещение сайта в базе поисковиков. Сегодня самым медленным считается Google, хотя до 2012 года он мог выполнять эту работу за неделю. К сожалению, всё очень быстро меняется. Известно, что Mail.ru работает с веб-узлами в этой области около полугода.

Индексирование сайта в поисковиках осуществить способен не каждый специалист. На сроки добавления в базу новых страниц уже обработанного поисковиками сайта влияет частота корректировки его контента. Если на ресурсе постоянно появляется свежая информация, система считает его часто обновляемым и полезным для людей. В этом случае её работа ускоряется.

За ходом индексации веб-узла можно следить на особых разделах для веб-мастеров или на поисковиках.

Изменения

Итак, мы уже разобрались, как происходит индексирование сайта. Необходимо отметить, что базы данных поисковиков часто обновляются. Поэтому количество добавленных в них страниц вашего проекта может меняться (как уменьшаться, так и увеличиваться) по следующим причинам:

  • санкции поисковика к веб-узлу;
  • наличие погрешностей на сайте;
  • изменение алгоритмов поисковиков;
  • отвратительный хостинг (недосягаемость сервера, на котором находится проект) и так далее.

Ответы «Яндекса» на обычные вопросы

«Яндекс» - поисковая система, которой пользуются многие пользователи. Она занимает пятое место среди розыскных систем мира по числу обработанных исследовательских запросов. Если вы в неё добавили сайт, он может слишком долго добавляться в базу.

Добавление URL не гарантирует его индексацию. Это лишь один из методов, с помощью которого сообщают роботу системы о том, что появился новый ресурс. Если на сайт отсутствуют ссылки с других веб-узлов или их немного, добавление поможет его быстрее обнаружить.

Если индексация не произошла, нужно проверить, не было ли на сервере сбоев в момент создания ему заявки от робота «Яндекса». Если сервер сообщает об ошибке, робот завершит свою работу и попытается её выполнить в порядке всестороннего обхода. Работники «Яндекса» не могут увеличить скорость добавления страниц в базу поисковика.

Индексирование сайта в «Яндексе» - довольно-таки сложное занятие. Вы не знаете как добавить ресурс в поисковую систему? Если на него имеются ссылки с других веб-узлов, то добавлять специально сайт не требуется - робот его автоматически разыщет и проиндексирует. Если у вас нет таких ссылок, можно использовать форму «Добавить URL», чтобы заявить поисковику о существовании веб-узла.

Необходимо помнить, что добавление URL не гарантирует индексацию вашего творения (или её скорость).

Многим интересно, сколько времени занимает индексирование сайта в «Яндексе». Сотрудники этой компании не дают гарантий и не прогнозируют сроки. Как правило, с тех пор, как робот узнал о сайте, страницы его в поиске появляются через два дня, иногда - через пару недель.

Процесс обработки

«Яндекс» - поисковая система, требующая точности и внимания. Индексация сайта состоит из трёх частей:

  1. Поисковый робот выполняет обход страниц ресурса.
  2. Содержимое (контент) сайта записывается в базу данных (индекс) розыскной системы.
  3. Через 2-4 недели, после обновления базы, можно увидеть результаты. Ваш сайт появится (или не появится) в поисковой выдаче.

Проверка индексации

Как проверить индексацию сайта? Выполнить это можно тремя способами:

  1. Введите наименование своего предприятия в строке поиска (к примеру, «Яндекса») и проверьте каждую ссылку на первой и второй странице. Если вы обнаружите там URL своего детища, значит, робот свою задачу выполнил.
  2. Можно ввести URL своего сайта в розыскной строке. Вы сможете увидеть, сколько интернет-листов показывается, то есть проиндексировано.
  3. Зарегистрируйтесь на страницах веб-мастеров в Mail.ru, «Гугле», «Яндексе». После того как вы пройдёте верификацию сайта, вы сможете увидеть и итоги индексации, и иные сервисы поисковиков, созданные для улучшения работы вашего ресурса.

Почему «Яндекс» отказывает?

Индексирование сайта в Google осуществляется следующим образом: робот в базу данных заносит все страницы сайта, некачественные и качественные, не выбирая. Но в ранжировании участвуют лишь полезные документы. А «Яндекс» весь веб-хлам исключает сразу же. Он может проиндексировать любую страницу, но поисковик со временем ликвидирует весь мусор.

У обеих систем имеется добавочный индекс. И у той, и у другой страницы низкого качества влияют на рейтинг веб-узла в целом. Здесь работает простая философия. Излюбленные ресурсы конкретного пользователя будут занимать более высокие позиции в его выдаче. Зато этот же индивидуум с трудом отыщет сайт, который ему в прошлый раз не понравился.

Именно поэтому сперва необходимо от индексации прикрыть копии веб-документов, проинспектировать наличие пустых страниц и не пускать в выдачу некачественный контент.

Ускорение работы «Яндекса»

Как можно ускорить индексирование сайта в «Яндексе»? Необходимо выполнить следующие шаги:

Промежуточные действия

Что необходимо выполнить, пока веб-страница «Яндексом» не проиндексирована? Отечественный поисковик должен считать сайт первоисточником. Именно поэтому ещё до публикации статьи обязательно необходимо добавить её содержание в форму «Специфичных текстов». В противном случае плагиаторы скопируют запись на свой ресурс и окажутся в базе данных первыми. В итоге признаны авторами будут они.

База данных Google

Запрещение

Что собой представляет запрет индексирования сайта? Вы можете наложить его как на всю страницу, так и на отдельную её часть (ссылку или кусок текста). Фактически существует как глобальный запрет индексации, так и локальный. Как это реализуется?

Рассмотрим запрет добавления в базу поисковика веб-узла в Robots.txt. С помощью файла robots.txt можно исключить индексацию одной страницы или целой рубрики ресурса так:

  1. User-agent: *
  2. Disallow: /kolobok.html
  3. Disallow: /foto/

Первый пункт говорит о том, что инструкции определены для всех ПС, второй указывает на запрет индексации файла kolobok.html, а третий - не разрешает добавление в базу всей начинки папки foto. Если нужно исключить несколько страниц или папок, укажите их все в «Роботсе».

Для того чтобы воспрепятствовать индексации отдельного интернет-листа, можно применить мета-тег robots. Он отличается от robots.txt тем, что даёт указания сразу всем ПС. Этот мета-тег подчиняется общим принципам формата html. Его нужно размещать в заголовке страницы между Запись для запрета, к примеру, может быть написана так: .

Ajax

А как проводит индексирование Ajax-сайтов Yandex? Сегодня технологией Ajax пользуются многие разработчики веб-узлов. Конечно, у неё есть большие возможности. С помощью неё можно создавать быстродействующие и производительные интерактивные веб-страницы.

Однако системы веб-лист «видит» не так, как пользователь и браузер. К примеру, человек смотрит на комфортный интерфейс с подвижно подгружаемыми интернет-листами. Для поискового робота содержимое той же страницы может быть порожним или представленным как остальной статический HTML-контент, для генерации которого скрипты не идут в дело.

Для создания Ajax-сайтов можно применять URL с #, но его робот-поисковик не использует. Обычно часть URL после # отделяется. Это нужно учитывать. Поэтому взамен URL вида http://site.ru/#example он делает заявку главной странице ресурса, размещённой по адресу http://site.ru. Это значит, что контент интернет-листа может не попасть в базу данных. В итоге он не окажется в результатах поиска.

Для усовершенствования индексации Ajax-сайтов «Яндекс» поддержал изменения в поисковом роботе и правилах обработки URL таких веб-узлов. Сегодня веб-мастера могут указать поисковику «Яндекса» на необходимость индексации, создав соответствующую схему в структуре ресурса. Для этого необходимо:

  1. Заменить в URL страниц символ # на #!. Теперь робот поймёт, что он сможет обратиться за HTML-версией наполнения этого интернет-листа.
  2. HTML-версия контента такой страницы должна быть размещена на URL, где #! заменён на?_escaped_fragment_=.

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:


Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

  • от настроек вашей CMS;
  • от настроек хостинг провайдера;
  • от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:


Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:


Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:


это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:


Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.


Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:


Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.


В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.


Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:


Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.


Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»


Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.


К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:


Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.


Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.


Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли


Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.


Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.


Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.


И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.


Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.


После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.


И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

  • Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
  • Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев

По большому счету, если Ваш ресурс хороший, качественно сделанный, то проблем с его индексированием быть не должно. Если сайт, пусть и не на 100%, но отвечает требованиям поисковиков — «для людей», то они с радостью будут заглядывать к Вам на огонек и индексировать все новое, что будет добавлено.

Но как бы там ни было, первым шагом в продвижении сайта является добавление его в индекс ПС. До тех пор, пока ресурс не проиндексируется, по большому счету и продвигать то нечего, ведь поисковики вообще о нем не будут знать. Поэтому, в этой статье я рассмотрю, что такое индексация сайта в Яндексе и как отправить ресурс на индексацию. А также расскажу о том, как проверить попал ли сайт или отдельная страница в индекс Yandex и, что делать для ускорения индексации Яндексом.

Индексирование сайта в Яндексе – это обход роботами поисковой системы yandex Вашего сайта, и внесения всех открытых страниц в базу. Паук русского поисковика добавляет в базу данные о сайте: его страницах, картинках, видео, документах, которые доступны для поиска. Также, поисковой бот занимается индексированием ссылок и других элементов, что не закрыты специальными тегами и файлами.

Основные способы индексации ресурса:

    Принудительная - следует отправить сайт на индексацию в Яндекс через специальную форму.

    Естественная - поисковому пауку удается самостоятельно найти Ваш сайт, переходя с внешних ресурсов, что ссылаются на вебсайт.

Время индексации сайта в Яндексе для всех разное и может колебаться от пары часов до нескольких недель.

Это зависит от множества факторов: какие значения стоят в Sitemap.xml, как часто наполняется ресурс, как часто упоминание о сайте появляется на других ресурсах. Процесс индексации цикличен, поэтому робот будет приходить к Вам через (практически) равные промежутки времени. А вот с какой периодичностью — зависит от упомянутых выше факторов и конкретного робота.

Паук может проиндексировать веб-сайт полностью (если он маленький) или отдельный раздел (это относиться к интернет-магазинам или СМИ). На часто обновляемых ресурсах, типа СМИ и информационных порталах живут, так называемые, быстро-роботы для быстрой индексации сайта в Яндексе.

Порой на проекте могу возникнуть технические неполадки (или проблемы с сервером), в таком случае yandex индексация сайта не состоится, из-за чего поисковая система может прибегнуть к следующему сценарию:

  • сразу выкинуть непроиндексированные страницы с базы;
  • провести переиндексацию ресурса через определенное время;
  • поставить страницы, что не были проиндексированы, на исключение из базы, и если не обнаружит их при повторной индексации, то выбросит из индекса.

Как ускорить индексацию сайта в Яндексе

Как ускорить индексирование в Яндекс – частый вопрос на различных форумах вебмастеров. Фактически жизнь всего сайта зависит от индексации: позиции ресурса в ПС, количество клиентов с них, популярность проекта, прибыль, в конце концов.

Я подготовил 10 способов, которые, надеюсь, пригодятся Вам. Первые пять – это стандартные для постоянной индексации ресурса, а следующая пятерка поможет Вам ускорить индексацию сайта в Яндексе:

    сервисы закладок;

    RSS-лента – обеспечит трансляцию новых материалов с Вашего ресурса на почту подписчикам и в RSS-каталоги;

    биржи ссылок – обеспечат стабильный прирост dofollow ссылок с качественных доноров, при правильном их отборе (как правильно отбирать );

    – если вы еще не регистрировали сайт в каталогах, то советую сделать это. Многие говорят, что каталоги давно умерли или регистрация в них убьет сайт – это не правда. Точнее не полная правда, если регистрироваться во всех подряд каталогах, то действительно Ваш ресурс только пострадает от этого. Но при правильном отборе трастовых и хороших каталогов эффект будет несомненно.

Проверка индексации сайта в Яндексе

  • Операторы site и url. Если Вы желаете проверить индексацию сайта в Яндексе, то можете воспользоваться стандартными операторами поисковой системы..biz. (Естественно, вместо моего домена свой)

  • RDS bar. Считаю самым лучшим и быстрым способом проверки индексации страницы в Яндексе. Данный плагин можно установить на все популярные браузеры, сразу предоставит подробную информацию о количестве страниц сайта в индексе и о наличии конкретного материала в нем. С помощью этого расширения Вы не будете терять время на ручной ввод урлов в сервисах или поиске. В общем, рекомендую, RDS bar крайне удобен:
  • Сервис Серпхант. Многофункциональный ресурс, с помощью которого можно проводить анализ сайта: оценки эффективности и мониторинга сайтов, анализ страниц конкурентов, проверка позиций и индексации сайта. Бесплатно проверить индексацию страниц можно по этой ссылке: https://serphunt.ru/indexing/ . Благодаря пакетной проверке (до 50 адресов) и высокой достоверности результатов, данный сервис входит в тройку лучших по моему мнению.

  • Сервис XSEO. Набор инструментов для вебмастеров, в XSEO.in Вы можете посмотреть в Яндексе индексацию сайта. Также получить множество дополнительной полезной информации о своем ресурсе:

  • Сервисы PR-CY и CY-PR. Еще пара сервисов, которые предоставят Вам информацию об общем количестве проиндексированных страниц:

  • Сервис Sitereport. Отличный сервис, который укажет на все Ваши ошибки в работе над сайтом. Также имеет раздел «Индексация», где будет представлена информация для каждой страницы сайта с указанием проиндексирована она или нет в поисковых системах Yandex и Google. Поэтому, рекомендую использовать данный ресурс для обнаружения проблем на сайте и проверки массовой индексации Яндекса:

C Google все очень просто. Вам нужно добавить свой сайт в инструменты вебмастера по адресу https://www.google.com/webmasters/tools/ , после чего выбрать добавленный сайт, таким образом попадая в Search Console своего сайта. Далее в левом меню выбираем раздел «Сканирование», а в нем пункт «Просмотреть как Googlebot».

На открывшейся странице в пустое поле вводим адрес новой страницы, которую хотим быстро проиндексировать (с учетом уже введенного доменного имени сайта) и жмем правее кнопку «Сканировать». Ждем, пока страничка просканируется и появится в верхней части таблицы ранее сканированных подобным образом адресов. Далее жмем на кнопку «Добавить в индекс».

Ура, ваша новая страница моментально проиндексирована Гуглом! Уже через пару минут вы сможете найти ее в гугловской выдаче.

Быстрая индексация страниц в Яндексе

В новой версии инструментов для вебмастера стал доступен аналогичный инструмент для добавления в индекс новых страниц. Соответственно, ваш сайт также предварительно должен быть добавлен в Яндекс Вебмастер. Туда же можно попасть выбрав в вебмастере нужный сайт, далее идем в раздел «Индексирование», выбираем пункт «Переобход страниц». В открывшемся окне вводим адреса новых страниц, которые хотим быстро проиндексировать (по ссылке на одной строке).

В отличие от Гугла, индексация в Яндексе пока не происходит мгновенно, но старается к этому стремиться. Выше произведенными действиями вы сообщите роботу Яндекса о новой странице. А проиндексирована она будет в течение получаса-часа - так показывает лично моя практика. Возможно, скорость индексации страницы в Яндексе зависит от ряда параметров (от репутации вашего домена, аккаунта и/или других). В большинстве случаев, на этом можно остановиться.

Если вы видите, что страницы вашего сайта плохо индексируются Яндексом , то есть несколько общих рекомендаций, как с этим бороться:

  • Самая лучшая, но и трудная рекомендация – это поселить быстробот Яндекса на своем сайте. Для этого желательно каждый день добавлять на сайт свежие материалы. Желательно 2-3 и более материалов. Причем добавлять их не сразу все одновременно, а через некоторое время, например, утром, днем и вечером. Еще лучше было бы соблюдать примерно одинаковый график публикаций (примерно выдерживать одно и то же время добавления новых материалов). Также многие рекомендуют создать RSS ленту сайта, чтобы поисковые роботы могли считывать обновления прямо с нее.
  • Естественно, далеко не все смогут в таких объемах добавлять новые материалы на сайт – хорошо, если получится добавлять 2-3 материала в неделю. В таком случае о быстроботе Яндекса можно особо не мечтать, а пытаться загонять в индекс новые странички другими способами. Самым эффективным из которых считается постинг ссылки на новые странички в прокаченные Твиттер аккаунты. С помощью специальных программ типа Twidium Accounter можно «прокачать» нужное вам количество твиттер аккунтов и уже с их помощью быстро загонять в индекс поисковых систем новые страницы сайта. Если у вас нет возможности постить ссылки в прокаченные аккаунты Твиттера самостоятельно, можно купить такие посты через специальные биржи. Один пост с вашей ссылкой в среднем будет стоить от 3-4 рублей и выше (в зависимости от крутости выбранного аккаунта). Но этот вариант будет довольно дорогим.
  • Третий вариант быстрой индексации – это использование сервиса http://getbot.guru/ , который всего за 3 рубля поможет достигнуть нужного эффекта с гарантией результата. Хорошо подойдет для сайтов с редким графиком добавления новых публикаций. Есть там и более дешевые тарифы. Подробности и отличия их лучше смотреть на сайте самого сервиса. Лично я услугами данного сервиса в качестве ускорителя индексации очень доволен.

Конечно, можно также добавлять новые публикации в социальные закладки, что теоретически также должно способствовать быстрому индексированию сайта. Но эффективность такого добавления также будет зависеть от прокаченности ваших аккаунтов. Если у вас маленькая активность на них и вы используете аккаунты только для подобного спама, то полезного выхлопа практически не будет.

P.S. с большим опытом всегда актуальна - обращайтесь!

Публикации по теме