SEO на месте

Предисловие Мэтта Диггити:

Вскоре я передам слово Роуэну Коллинзу, приглашенному автору этой статьи. статья.

Роуэн - руководитель отдела технического SEO в моем агентстве The Search Initiative. Он один из наших лучших.

Другое чем быть в целом всесторонним оптимизатором поисковых систем, Роуэн - просто чудовище, когда дело доходит до технической стороны вещей… как вы скоро узнаете.

Introduction: Rowan Collins

rowan Несомненно, наиболее упускаемым из виду аспектом SEO является возможность сканирования сайта: секретное искусство создания вашего сайта для робота Googlebot.

Если вы все сделаете правильно, то у вас будет отзывчивый сайт. Каждое небольшое изменение может привести к большому увеличению результатов поиска. Однако, если все сделано неправильно, вам придется неделями ждать обновления от Googlebot.

Меня часто спрашивают, как заставить Googlebot сканировать определенные страницы. Кроме того, люди изо всех сил пытаются проиндексировать свои страницы.

Что ж, сегодня ваш счастливый день - потому что все скоро изменится с этой статьей.

Я собираюсь научить вас четыре основных аспекта управления сканированием сайта, чтобы вы могли предпринять действенные меры для улучшения своих позиций в поисковой выдаче.

Столб № 1: Блокировка страниц

Google назначает «краулинговый бюджет» для каждый сайт. Чтобы убедиться, что Google сканирует нужные вам страницы, не тратьте этот бюджет на страницы, сканирование которых вы не хотите.

Вот здесь-то и вступает в игру блокировка страниц.

When it comes to blocking pages, you’ve got plenty of options, and it’s up to you which ones to use. I’m going to give you the tools, but you’ll need to analyse your own site.

Robots.txt

Простая техника, которую я люблю использовать, - это блокировать страницы с помощью robots.txt.

Первоначально разработан в результате случайного DDOS-атаки на веб-сайт с помощью поискового робота; эта директива неофициально признана в Интернете.

Хотя для robots.txt нет стандарта ISO, у робота Google есть свои предпочтения. Вы можете узнать больше об этом здесь.

Но вкратце вы можете просто создать файл .txt с именем robots и дать ему директивы о том, как себя вести. Вам нужно будет структурировать его так, чтобы каждый робот знал, какие правила применяются к нему.

Вот пример:

Пользовательский агент: *
Disallow: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php

Карта сайта: /sitemap.xml

Это короткий и приятный файл robots.txt, который вы наверняка найдете на своем веб-сайте. Здесь он разбит для вас:

  • User-Agent - указывает, какие роботы должны придерживаться следующих правил. В то время как хорошие боты обычно следуют директивам, плохие боты в этом не нуждаются.
  • Disallow - это говорит ботам не сканировать ваши / wp-admin / папки, где для WordPress хранится много важных документов.
  • Разрешить - это говорит ботам, что, несмотря на то, что вы находитесь внутри папки / wp-admin /, вам все равно разрешено сканировать этот файл. Файл admin-ajax.php очень важен, поэтому вы должны оставить его открытым для ботов.
  • Карта сайта - одна из наиболее часто пропускаемых строк - это директива карты сайта. Это помогает роботу Googlebot найти вашу карту сайта в формате XML и улучшить возможность сканирования.

Если вы используете Shopify, то вы знаете, как трудно контролировать свой файл robots.txt. Вот на что, скорее всего, будет напоминать ваша карта сайта:

robots tester

Однако следующая стратегия все еще может быть применена к Shopify и должна помочь:

Мета Роботы

Все еще часть директив robots, метатеги robots представляют собой HTML-код, который можно использовать для определения настроек сканирования.

По умолчанию все ваши страницы будут индексироваться, следовать - даже если вы не укажете предпочтения. Добавление этого тега не поможет вашей странице просканировать и проиндексировать, потому что это значение по умолчанию.

Однако, если вы хотите остановить сканирование определенной страницы, вам нужно будет указать.

Пока Два вышеупомянутых тега технически отличаются с точки зрения директивы роботов, они, похоже, не работают по-разному в соответствии с Google.

Ранее вы указывали noindex, чтобы остановить сканирование страницы. Кроме того, вы также можете указать, следует ли по-прежнему переходить на страницу.

Google недавно сделал заявление о том, что неиндексированные страницы в конечном итоге обрабатываются как Soft 404, и они обрабатывают ссылки как nofollow. Следовательно, нет технической разницы между указанием follow и nofollow.

Однако, если вы не доверяете всему, что заявляет Джон Мюллер, вы можете использовать тег noindex, follow, чтобы указать ваше желание, чтобы сканирование продолжалось.

Это то, что Yoast взяли на вооружение, поэтому вы заметите, что в последних версиях плагина Yoast SEO удалена возможность нумерации страниц без индексации.

Это потому, что если Googlebot обрабатывает тег noindex как 404, то делать это через вашу разбивку на страницы - ужасная идея. Я бы остался на стороне осторожности и использовал бы это только для страниц, которые вы счастливы, чтобы их не сканировали или не отслеживали.

noindex

Теги X-Robots

Есть еще один тег роботов, который люди редко используют так часто, и он очень мощный. Но не многие понимают, почему он такой мощный.

С помощью директив robots.txt и meta robots решать, слушает он или нет. Это касается и робота Googlebot: он все еще может пинговать ваши страницы, чтобы узнать, есть ли они.

Используя этот заголовок сервера, вы можете запретить роботам сканировать ваш сайт с сервера. Это означает, что у них не будет выбора в этом вопросе, им просто будет отказано в доступе.

Это может быть сделано либо с помощью PHP, либо с помощью директив Apache, потому что оба обрабатываются на стороне сервера. Поскольку .htaccess является предпочтительным методом для блокировки определенных типов файлов, а PHP - для определенных страниц.

Код PHP

Вот пример кода, который вы могли бы использовать для блокировки страницу с PHP. Это просто, но оно будет обрабатываться на стороне сервера, а не являться необязательным для поисковых роботов.

header («X-Robots-Tag: noindex», true);

Директива Apache

Here’s an example of the code that you could use for blocking off .doc and .pdf files from the SERPs without having to specify every PDF in your robots.txt file.

Набор заголовков X-Robots-Tag «noindex, noarchive, nosnippet»

Pillar # 2: Понимание Поведение сканирования

Многие из тех, кто следит за The Lab, знают, что есть много способов, которыми роботы могут сканировать ваш сайт. Однако вот краткое изложение того, как все это работает:

Бюджет сканирования

Когда дело доходит до бюджета сканирования, это то, что существует только в принципе, но не на практике. Это означает, что невозможно искусственно завышать бюджет сканирования.

Для тех, кто не знает, сколько времени Google будет тратить на сканирование вашего сайта. Мегамагазины с тысячами товаров будут сканироваться более активно, чем магазины с микросайтом. Однако основные страницы микросайта будут сканироваться чаще.

Если вам не удается заставить Google сканировать важные страницы, вероятно, для этого есть причина. Либо он заблокирован, либо имеет низкое значение.

Вместо того, чтобы пытаться принудительно сканировать страницы, вам может потребоваться устранить корень проблемы.

Однако для них примерно так, вы можете проверить среднюю скорость сканирования вашего веб-сайта в Google Search Console> Статистика сканирования.

crawl stats

Сканирование сначала в глубину

Один из способов, которым роботы могут сканировать ваш веб-сайт, - это использование принципа «сначала глубина». Это заставит сканеры углубиться как можно глубже, прежде чем возвращаться вверх по иерархии.

Это эффективный способ сканирования веб-сайта, если вы хотите найти внутренние страницы с ценным контентом в кратчайшие сроки. возможно. Однако в результате приоритетность основных навигационных страниц будет понижена.

Знание того, что веб-сканеры могут вести себя подобным образом, поможет при анализе проблем с вашим сайтом.

deep first

Сканирование в первую очередь в ширину

Это противоположность полному сканированию в первую очередь в том, что он сохраняет структуру веб-сайта. Он начнется со сканирования каждой страницы уровня 1 перед сканированием каждой страницы уровня 2.

Преимущества этого типа сканирования в том, что он, вероятно, обнаружит больше уникальных URL-адресов за более короткий период. Это потому, что он перемещается по нескольким категориям на вашем веб-сайте.

Итак, вместо копаясь глубоко в кроличью нору, этот метод пытается найти каждую кроличью нору, прежде чем копаться глубже на веб-сайте. долго не реагировать и загружаться.

However, whilst this is good for preserving site architecture, it’s can be slow if your category pages take a long time to respond and load.

breadth first

Эффективность сканирования

Существует много разных способов сканирования, но наиболее заметными являются два указанных выше, и третий - снижение эффективности. Здесь поисковый робот сначала не оценивает ширину или глубину, а вместо этого учитывает время отклика.

Это означает, что если у вашего веб-сайта есть час для сканирования, он выберет все страницы с низким временем отклика. . Таким образом, он может просканировать большее количество сайтов за более короткий период времени. Отсюда и термин «краулинговый бюджет».

По сути, вы пытаетесь заставить свой веб-сайт реагировать как можно быстрее. Это делается для того, чтобы можно было просканировать больше страниц за отведенное время.

testing

Скорость сервера

Многие люди не осознают, что Интернет физически подключен . Миллионы устройств по всему миру подключены для обмена и передачи файлов.

Однако ваш веб-сайт размещается где-то на сервере. Чтобы Google и ваши пользователи могли открыть ваш веб-сайт, для этого потребуется соединение с вашим сервером.

Чем быстрее ваш сервер, тем меньше времени робот Googlebot должен ждать важные файлы. Если мы рассмотрим приведенный выше раздел об эффективности сканирования; Понятно, почему это так важно.

Когда дело доходит до SEO, стоит получить хостинг хорошего качества в месте, близком к вашей целевой аудитории. Это снизит задержку, а также время ожидания для каждого файла. Однако, если вы хотите осуществлять международное распространение, вы можете использовать CDN.

page load

Content Distribution Networks ( CDN)

Поскольку робот Google выполняет сканирование с серверов Google, они могут быть физически очень далеко от сервера вашего веб-сайта. Это означает, что Google может воспринимать ваш веб-сайт как медленный, несмотря на то, что ваши пользователи воспринимают его как быстрый веб-сайт.

Один из способов обойти это - создать сеть распространения контента.

Есть из чего выбирать, но это действительно просто. Вы платите за распространение содержания своего веб-сайта по сети.

Это то, что он делает, но многие люди спрашивают, почему это может помочь?

Если ваш веб-сайт распространяется через Интернет, физическое расстояние между вашим конечным пользователем и файлами может быть уменьшено . В конечном итоге это означает меньшую задержку и более быстрое время загрузки для всех ваших страниц.

world

Кредит изображения: MaxCDN

Столб № 3: Воронка страниц

После того, как вы поймете приведенное выше и будете сканировать поведение ботов, следующий вопрос должен быть; как я могу заставить Google сканировать нужные мне страницы?

Ниже вы найдете несколько отличных советов по устранению недостатков на вашем веб-сайте, повышению авторитетности и повторному сканированию основных страниц.

AHREFS Broken Links

В начале каждой кампании очень важно исправить все незакрепленные концы. Для этого мы ищем все неработающие ссылки, найденные в AHREFS.

Это не только поможет передать авторитет на ваш сайт ; он покажет неработающие ссылки, которые были взяты. Это поможет очистить любые нежелательные сообщения 404, которые все еще существуют в Интернете.

Если вы хотите быстро это исправить, вы можете экспортировать список неработающих ссылок, а затем импортировать их все в свой любимый плагин перенаправления. Мы лично используем Redirection и Simple 301 Redirects для наших перенаправлений WordPress.

Во время перенаправления по умолчанию включает импорт / экспорт csv, вам нужно будет получить дополнительную надстройку для Simple 301 Redirects. Это называется массовое обновление и тоже бесплатно.

broken backlinks

Screaming Frog Broken Links

Как и в предыдущем случае, с Screaming Frog мы сначала экспортируем все ошибки 404, а затем добавляем перенаправления. Это должно переместить все ваши ошибки в переадресацию 301.

Следующим шагом по очистке вашего сайта является исправление ваших внутренних ссылок.

Хотя 301 может передавать сигналы авторитета и релевантности, обычно он работает быстрее и эффективнее, если ваш сервер не обрабатывает большое количество перенаправлений. Возьмите за привычку очищать внутренние ссылки и не забудьте оптимизировать эти привязки!

screaming frog broken links

Ошибки сканирования в Search Console

Еще одно место, где вы можете найти некоторые ошибки для воронки, - это ваша Google Search Console. Это может быть удобный способ узнать, какие ошибки обнаружил робот Googlebot.

Затем сделайте, как указано выше, экспортируйте их все в CSV и массово импортируйте перенаправления. Это исправит почти все ваши 404 ошибки за пару дней. Тогда робот Googlebot будет тратить больше времени на сканирование ваших релевантных страниц и меньше - на ваши неработающие.

url errors

Журнал сервера Анализ

Несмотря на то, что все вышеперечисленные инструменты полезны, они не являются лучшим способом проверки неэффективности. Выбрав просмотр журналов сервера через Screaming Frog Log File Analyzer, вы можете найти все ошибки, обнаруженные вашим сервером.

Screaming Frog отфильтровывает обычные пользователей и ориентирована в первую очередь на поисковых роботов. Похоже, это даст те же результаты, что и выше; но обычно он более подробный.

Он не только включает все URL-адреса робота Google; но вы также можете выбрать другие поисковые роботы, такие как Bing и Яндекс. К тому же, поскольку это каждая ошибка, которую обнаруживает ваш сервер, вы не собираетесь полагаться на точность Google Search Console.

server errors

Internal Linking

Один из способов повысить скорость сканирования определенной страницы - использовать внутренние ссылки. Это простой способ, но вы можете улучшить свой текущий подход.

Используя анализатор файлов журнала Screaming File, описанный выше, вы можете увидеть, какие страницы получают больше всего посещений от робота Google. Если сканирование выполняется регулярно в течение месяца; есть большая вероятность, что вы нашли кандидата для внутренней ссылки.

На этой странице могут быть добавлены внутренние ссылки на другие основные сообщения, и это поможет направить Googlebot в нужные области вашего веб-сайта.

Ниже вы можете увидеть пример того, как Мэтт регулярно включает внутренние ссылки. Это поможет вам, ребята, найти более интересный контент; а также помогает роботу Googlebot ранжировать его сайт.

pillow link example

Столб № 4: Принуждение a Сканирование

Если робот Googlebot выполняет сканирование сайта и не находит ваши основные страницы, это обычно является большой проблемой. Или, если ваш веб-сайт слишком большой, и они не попадают на страницы, которые вы хотите проиндексировать, это может повредить вашей стратегии SEO. All My Onpage Tactics

К счастью, есть способы заставить сканировать ваш сайт. Однако сначала несколько слов о предупреждении об этом подходе:

Если ваш веб-сайт не сканируется регулярно роботом Googlebot, обычно для этого есть веская причина. Наиболее вероятная причина в том, что Google не считает ваш сайт ценным.

Еще одна веская причина, по которой ваша страница не будет сканироваться, - это раздутый сайт. Если вы изо всех сил пытаетесь проиндексировать миллионы страниц; ваша проблема в миллионах страниц, а не в том, что они не проиндексированы.

В нашем SEO-агентстве The Search Initiative мы видели примеры веб-сайты, которые были избавлены от штрафа Panda, потому что их сканирование было слишком плохим для Google, чтобы найти страницы с тонким содержанием. Если бы мы сначала исправили проблему с возможностью сканирования, не исправляя тонкое содержимое, мы бы получили штраф.

Важно исправить all of проблемы вашего веб-сайта, если вы хотите стабильно занимать высокие позиции в рейтинге.

Sitemap.xml

Кажется довольно очевидным, но поскольку Google использует XML Sitemaps для сканирования вашего веб-сайта, первым методом будет создание карты сайта.

Просто возьмите все ваши URL-адреса, которые вы хотите проиндексировать, затем запустите режим списка Screaming Frog, выбрав List из меню:

screaming frog 2

Затем вы можете загрузить свои URL-адреса из одного из следующих вариантов в раскрывающемся списке:

  • Из файла
  • Ввести вручную
  • Вставить
  • Загрузить карту сайта
  • Загрузить индекс карты сайта

screaming frog 3

Затем, когда вы просканируете все URL-адреса, которые вы хотите проиндексировать, вы можете просто использовать функцию Sitemap для создания XML-карты сайта.

screaming frog 4

Отправить это в корневой каталог, а затем загрузите в Google Search Console, чтобы быстро удалить все повторяющиеся или не просканированные страницы.

gsc

Fetch & Request Indexing

Если у вас небольшое количество страниц, которые вы хотите проиндексировать , то использование инструмента индексирования выборки и запроса очень полезно.

Он отлично работает в сочетании с отправкой карты сайта для эффективного повторного сканирования вашего сайта за короткие периоды времени. Сказать особо нечего, кроме поиска в Google Console> Crawl> Fetch as Google.

fetch as google

Создание ссылок

Это имеет смысл, если вы пытаетесь сделать страницу более видимой и с большей вероятностью будет сканироваться; бросание некоторых ссылок поможет вам.

Обычно 1-2 приличные ссылки могут помочь разместить вашу страницу на карте. Это потому, что Google будет сканировать другую страницу, а затем обнаружит привязку к вашей. Не оставляя роботу Google другого выбора, кроме как сканировать новую страницу.

Использование низкокачественных ссылок на подушку также может работать, но я бы рекомендовал вам качественные ссылки. В конечном итоге это повысит вашу вероятность сканирования, поскольку качественный контент будет сканироваться чаще.

example from emily

Индексирование Инструменты

К тому времени, когда вы научитесь пользоваться инструментами индексации, вы, вероятно, уже достигли дна и у вас закончились идеи.

Если ваши страницы хорошего качества, индексируемые, в вашей карте сайта получены и запрошены, с некоторыми внешними ссылками и вы все еще не проиндексированы - вы можете попробовать еще один трюк.

Many people use indexing tools as the shortcut and default straight to it, but in most cases it’s a waste of money. The results are often unreliable, and if you’ve done everything else right then you shouldn’t really have a problem.

Однако вы можете использовать такие инструменты, как Lightspeed Indexer to try and force a crawl on your pages. There are tons others, and they all have their unique benefits.

Большинство этих инструментов работают, отправляя запросы на поисковые системы, аналогично Pingomatic.

pingomatic

Резюме

Когда дело доходит до сканирования сайта, существует множество различных способов решить любую проблему, с которой вы столкнетесь. Уловка для долгосрочного успеха будет заключаться в том, чтобы выяснить, какой подход лучше всего подходит для требований вашего веб-сайта.

Мой совет каждому человеку:

Постарайтесь понять основную конструкцию и взаимосвязь Интернета.

Без этого фундамента остальная часть SEO превращается в серию фокусов. Однако, если вы добьетесь успеха, тогда все остальное в SEO станет понятным.

Постарайтесь помнить, что алгоритм в основном математический. Таким образом, даже ваш контент можно понять с помощью ряда простых уравнений.

Имея это в виду, удачи в устранении проблем со сканированием вашего сайта, и если у вас все еще есть проблемы, вы знаете, где нас найти: The Search Initiative.