Как создать свой блог, вести его и зарабатывать в интернете. Советы практикующего блогера и SEO-специалиста
Раскрутка блога
ComparseR — проверяем индексацию сайта в Google и Яндекс

ComparseR — проверяем индексацию сайта в Google и Яндекс

ComparseR — проверяем индексацию сайта в Google и Яндекс Антон Шабан

Рейтинг программы ComparseR

Простота использования
Новизна, идея
Проработанность
Практическая польза
Стоимость
Инструкции, FAQ, поддержка

Итого: Программа может собрать индекс поисковых систем и просканировать сайт, а также сравнить эти массивы данных! Стоит 2000 рублей, привзяывается к компьютеру. Must Have для SEO-специалиста, для владельца контентного проекта - желателен. Для блогера - опционально, можно просто иметь под рукой товарища с этой программой и раз в месяц проверять сайт.

4.8

100% нужный софт для профи

Пользовательский рейтинг: 0 (0 голосов)

Если вы знаете, что такое индекс и как туда попадают страницы вашего сайта, наверняка вам также известно, что туда может попасть мусор, ненужные страницы, дубли страниц. допустим, вы знаете как их найти. Но что делать, если у вашего сайта тысячи страниц? А как узнать какие страницы вашего сайта не в индексе? Эти и другие проблемы поможет решить всего одна программа — ComparseR. И ниже будет мой отзыв о ней, опыт использования и советы.

Для чего в первую очередь нужен Компарсер — проверить, какие нужные страницы вашего сайта все еще не в индексе (а значит не собирают трафик из поиска), а какие ненужные страницы попали в индекс и должны быть оттуда удалены (с последним программа также поможет). Добавить страницы в индекс программа также поможет.

ComparseR найдет что «скушал» Google и «выплюнул» Яндекс

Программа может:

  • сканировать и собрать все страницы в индексе Google или Яндекса;
  • проверить код ответа сервера для этих страниц, не закрыты ли они от индексации в robots.txt;
  • просканировать сайт, проверить код ответа сервера страниц, собрать title;
  • сравнить страницы в индексе поисковых систем со страницами, найденными на сайте;
  • массово добавить страницы на индексацию в Гугл или Яндекс (в аддурилку);
  • массово добавить страницы на удаление из индекса Яндекс или Google;
  • собрать информацию о внешних ссылках;
  • собрать информацию об изображениях на сайте;
  • и многое другое (программа постоянно обновляется).

Программа платная и на момент написания обзора стоит 2000 рос. руб . И каждый рубль оправдан, поверьте мне! Но можно воспользоваться бесплатной демо-версией. Там установлено ограничение на сканирование 150 страниц сайта или 150 первых результатов выдачи. Для небольшого сайта вполне хватит надолго.

Сразу отмечу, что программа постоянно обновляется и развивается. Смотрите сами.

Обновление Comparser

Настраиваем ComparseR

Скачали? Установили? Смело шагаем в меню «Настройки».

Там немного настроек. Давайте пробежимся по ним.

Краулер — настройки краулера, который будет сканировать ваш сайт. Краулер — это сканер вашего сайта, который проходит по страницам. Ставим количество потоков и глубину сканирования. Глубина сканирования означает количество кликов от главной страницы. Количество потоков (параллельных запросов к сайту) не рекомендую ставить очень большое, потому что это может создать достаточную нагрузку на хостинг, если у вас большой сайт и слабый хостинг. Максимальную глубину можете оставить по умолчанию 10, но часто её не хватает. В таком случае программа предложить вам снять ограничение, даже если вы оставили настройку по умолчанию.

Если страница находится очень глубоко, вероятно, структура сайта является не оптимальной. Для успешного продвижения страница должна быть не глубже чем в трех кликах от главной.

Яндекс — настройки сбора индекса Яндекс. Тут можно задать использование XML (если знаете, что это), а также ввести логин и пароль от аккаунта Яндекса, который будет использоваться для добавления в индекс, удаления страниц из индекса или сбора информации об индексации.

Google — аналогично. Вводим логин и пароль.

Важно!  Программа не умеет работать с двухэтапной аутентификацией в Гугл. Поэтому рекомендую использовать отдельный аккаунт без двухэтапной аутентификации.

Антикапча — вводим свой ключ. Поддерживаются antigate, ripcaptcha, rucaptcha.

Орфография — можно задать настройки проверки орфографии. Только что-то я так и не нашел, где посмотреть отчет по проверке орфографии. Кто подскажет, где это?

Программа — по умолчанию стоит автосохранение (что весьма полезно). Если работаете с тестовым сайтом, доступ к которому заблокирован файлом .htpasswd, то можно ввести его и также сканировать сайт. Если не поняли о чем я — ничего страшного, я этой настройкой пока ни разу не пользовался.

User Agent — можно выбрать, как будет представляться программа и симулировать поведение поискового робота с учетом всех запретов и разрешений для определенного поискового робота. Например, программа может представиться как Googlebot (поисковый робот Гугл).

Запускаем сканирование сайта

Сначал просканируем сайт. Программа будет вести себя как поисковый робот и ходить по вашему сайту. Для старта воспользуемся одной из ссылок, приведенных ниже.

Можно воспользоваться кнопкой «Свой список» и ввести свой список страниц для проверки. Это может быть удобно для дальнейшей проверки индексации именно этих страниц.

Либо можно сканировать только страницы из файла sitemap.xml, указав ссылку на него.

Либо запускаем сканирование всего сайта, нажав кнопку «Запустить». Появится окно настроек. В нем вносим адрес сайта и настройки.

Совет: чтобы увидеть подсказку по тому или иному пункту настройки, просто наведите на него и подождите секунду. Увидите подсказку. Пример:

Когда все настроено, нажимаем кнопку «Старт» и наблюдаем за процессом.

При указанных выше настройках программа соберет на вкладке Краулер:

  • адреса страниц;
  • код ответа сервера для каждой страницы;
  • title, его длину;
  • description и его длину;
  • глубину вложенности страницы;
  • значение метатега robots для каждой страницы;
  • значение rel canonical, если есть на странице;
  • тип контента и его кодировку;
  • количество h1 на странице, содержимое этого тега, его длину;
  • количество h2, его содержимое и длину (для двух h2);
  • количество h3, его содержимое и длину (для двух h3);
  • количество h4, h5 и h6;
  • длину URL;
  • скорость загрузки страницы (сек);
  • размер страницы (Кб);
  • объем текста (симв.).

 

Справа есть панелька, в которой скрывается вся эта информация

Клик по любой строке позволяет отсортировать в основном окне нужные страницы и оставить, скажем, только страницы с дублирующимися title.

На вкладке «Структура» можно нажать кнопку «Построить дерево» и поставить галочки на скриншоте. Тогда мы получим наглядную структуру сайта в виде дерева.

Давайте попробуем. Страницы аккуратно сгруппируются по разделам:

Строить структуру обязательно, если у вас большой сайт (более 1000 страниц в индексе) и вы собираетесь проверять его индексацию.

Внешние ссылки

На этой вкладке вы сможете получить следующую информацию:

  • адрес страницы, на которую стоит ссылка;
  • ответ сервера для этой страницы;
  • источник (откуда стоит ссылка);
  • анкор (текст ссылки);
  • закрыта ли ссылка в nofollow.

Изображения

В этом меню конечно же будет информация об изображениях:

  • адрес изображения;
  • ответ сервера;
  • атрибут alt и его длина;
  • атрибут title и его длина;
  • откуда стоит ссылка на картинку;
  • тип изображения (jpg, png и пр.);
  • разрешено ли для индексации изображение;
  • размер картинки (Кб).

Сканируем индекс Google с помощью ComparseR

Пришла пора самого «вкусного». Запускаем сканирование индекса Google кнопкой «Запустить» на вкладке Google

Вносим, адрес сайта, выбираем метод парсинг (в зависимости от количества страниц в индексе):

Метода парсинга три. Метод перебора требует построить дерево сайта. Про это я писал выше.  Такой метод потребуется, если у вас более 1000 страниц в индексе. 

Галочка «использовать простой запрос» нужна вот почему.

Можно убрать галку «Отменить проверку кода ответа сервера» — это избавит вас от проверки кода ответа сервера для каждой страницы, найденной в индексе. Это значительно ускорит работу программы.

Галочка «Проверять дату сохраненной копии» также опциональна. Если вы её поставите, то увидите, когда поисковый робот проиндексировал страницу (эта информация есть в сохраненной копии страницы). Покажу наглядно.

Теперь отсортируем полученные данные. Мне нужно найти страницы, закрытые в robots.txt и находящиеся в индексе Google. Для этого просто кликаем по столбцу Robots.txt

Получаем список страницы со значением Disallow. Чтобы выделить все такие страницы, зажимаем левую клавишу мышки и протягиваем в столбце URL страницы.

После чего нажимаем Ctrl+C, выбираем «Удалить URL»

И в появившемся окне нажимаем Ctrl+C и Старт

Всё! Это всё, что нужно, чтобы удалить ненужные страницы из индекса Google.

И действительно: страницы незамедлительно добавляются на удаление в Google Search Console.

 

Сканируем индекс Яндекса

Нажимаем кнопку «Запустить», но теперь на вкладке Яндекса.

Настроек уже поменьше. Разбираемся:

Источник — можно парсить индекс напрямую из выдачи, можно с помощью XML, а можно выдернуть страницы из Вебмастера Яндекса (если вы внесли доступы к нему в настройках). Вот отсюда:

Также три метода парсинга

Нажимаем «Старт». Аналогично Гугл можно удалить страницы из индекса, так как в Вебмастере Яндекс также есть такой функционал.

Анализ полученных данных

Вот тут начинается интересное. Внимание! Определяем болевые точки сайта.

Если вы спарсили индекс поисковых систем и просканировали сайт, то можно воспользоваться чудесными отчетам в боковой панели программы:

Страница есть на сайте, но не найдена в Яндекс? Проверить, в чем проблема и проиндексировать (если это требуется). Причин проблем с индексацией может быть несколько, но об этом в отдельной статье поговорим.

Страница есть в Яндекс, но нет на сайте? Это вообще странно. Скорее всего, это мусор или дубли. Кстати, таким образом можно обнаружить, что ваш сайт взломали и разместили на него какую-то ерунду без вашего ведома.

Точно такой же отчет доступен и для Google:

Как массово добавить на индексацию страницы, которые не в индексе?

Да в пару кликов! Выше мы увидели, как найти страницы, которые есть на сайте, но не находятся в индексе.

На вкладке Яндекс и Google есть форма добавления страниц на индексацию. С её помощью можно без проблем добавить на индексацию сразу множество страниц.

Важно! Добавление на индексацию проводится через форму добавления страниц в индекс. Если вы хотите очень быстро добавить страницы в индекс Google, воспользуйтесь функционалом «Посмотреть как Googlebot» в Google Search Console (Вебмастере Гугл).

Ну и напоследок еще один важный вопрос.

Почему в Google в индексе находятся страницы, закрытые в robots.txt?

Google о robotx.txt

Потому что robots.txt запрещает Google переходить на страницу. Если вы закроете от индексации страницу, которая уже была в индексе, она с большой вероятностью останется в индексе и будет выглядеть вот так:

Да, запустил свой старый блог, что сказать. Есть повод заняться =)

Чтобы найти такие страницы, зайдите в выдачу Гугл, задайте запрос site:site.ru (вместо site.ru — адрес вашего сайта), перейдите на последнюю страницу выдачи и нажмите ссылку «Показать скрытые результаты». После чего опять переходите на последние страницы выдачи — увидите мусорные страницы (по мнению Гугл). Если таких нет — отлично!

Что делать в таком случае? Варианта два:

  1. удалить страницу из индекса с помощью соответствующего инструмента в Google Search Console;

  2. открыть страницу для индексации в robots.txt и закрыть от индексации метатегом robots, после чего переиндексировать: это позволит Google перейти на страницу и увидеть, что она закрыта от индексации. Вот выдержка из рекомендаций Google. Проверено на многих сайтах.

Google о noindex

Резюме

На самом деле я не успел попасть в группу людей, которые тестировали программу, но заполучил на работе одну из первых версий и опосредованно внес ряд предложений. Очень рад, что этот софт появился, потому что Алаичъ реально решил «боль» SEO-специалиста: как проверить индекс. Раньше мне приходилось делать это вручную, искать парсеры, которые прекращали работать, я даже научился парсить индекс Google с помощью таблиц Google. В общем, этот софт стал для меня спасением от рутины и сэкономил кучу времени. У меня есть лицензия на работе, дома, а еще одну удалось заполучить благодаря этому обзору. Спасибо, Алаичъ!

Тем не менее ставлю 4.5 балла за проработанность, т. к. еще есть куда развиваться, ну и 4 за стоимость по своим критериям, т.к. софт не бесплатный, но своих денег однозначно стоит!

Алаичъ, если идеи принимаются, то предлагаю доработать:

  • Работа с двухэтапной авторизацией в Гугл.
  • Определять, есть ли на странице rel alternate (для мобильной версии сайта используется) и куда он указывает — очень надо!
  • Определять для страниц с rel alternate ссылается на эту страницу с помощью canonical страница, указанная в alternate.
Понравилась статья? Сохраните в соцсети:

Похожие статьи

21 комментарий

  1. seoonly.ru

    17.09.2015 at 08:04

    Спасибо Алаичу, норм софтина

    Ответить

  2. АлаичЪ

    17.09.2015 at 11:46

    >> Только что-то я так и не нашел, где посмотреть отчет по проверке орфографии. Кто подскажет, где это?
    Во вкладке Краулера выбираешь строки, жмешь правой кнопкой — «Проверить орфографию».

    >> rel alternate
    Вот про это вообще не понял. Что это и для чего. Я не тупой, загуглить в состоянии и прочитать хелпы. Но в практике ни разу не приходилось с этим как-то близко работать. Оттого и спрашиваю, как это отражается на твоей практике?

    PS Обзор самый офигенный из всех, что я пока видел! Был очень и очень удивлен качеством. Спасибо, Антон!

    Ответить

    • Антон Шабан

      17.09.2015 at 12:19

      >>Во вкладке Краулера выбираешь строки, жмешь правой кнопкой – “Проверить орфографию”.
      Спасибо, дополню обзор!
      >>Вот про это вообще не понял. Что это и для чего. Я не тупой, загуглить в состоянии и прочитать хелпы. Но в практике ни разу не приходилось с этим как-то близко работать. Оттого и спрашиваю, как это отражается на твоей практике?
      на самом деле, возможно, сейчас это еще не особо актуально, просто я после введения Гуглом его Мобайл Френдли постоянно сталкиваюсь (возможно, клиенты такие попались =). Дело в том, что если у сайта отдельная мобильная версия, мобильная страница и соответствующая страница десктопной версии должны соотноситься с помощью тегов alternate и canonical. Вот рекомендации Гугл. Ручками это проверять сложно очень, а ScreamingFrog только каноникал проверяет, alternate нет, а про сравнить их друг с другом и речь не идет. А на практике, когда разработчик настраивает эти вещи очень и очень много ошибок бывает =(

      >> PS Обзор самый офигенный из всех, что я пока видел! Был очень и очень удивлен качеством. Спасибо, Антон!
      Спасибо, приятно =) Обзор точно не последний =)

      Ответить

  3. Дмитрий

    17.09.2015 at 11:59

    Шикарный обзор! Программа действительно полезная, аналогов не видел. Лицензия за 2000р. на нее пожизненная?

    Ответить

    • Антон Шабан

      17.09.2015 at 12:11

      Да, пожизненная. Но привязывается к компу.

      Ответить

  4. Дмитрий

    17.09.2015 at 12:13

    отличный обзор на очень крутую прогу! до некоторых функций я ещё не добрался и не знал даже о них, т.к. недавно только приобрёл софтину. за них спасибо 🙂
    В обзоре мало внимания уделено проверке кода сервера. Если вы не против, опишу ситуацию, в которой выручил Компарсер:
    Сайт на Вордпрессе: был установлен плагин для 301 редиректов, который однажды глюканул и вместо 301 некоторые редиректы на сайте со страниц, на которые уже ссылок и не было, как с плагина, так и с движка отдавали 302! От чего всё полетело вниз. При анализе Компарсером этот косяк был замечен и исправлен.

    Ответить

    • Антон Шабан

      17.09.2015 at 12:22

      Спасибо, Дмитрий. Да, я тут еще много чего не описал, обзор писал очень долго, но решил заткнуть в себе перфекциониста и опубликовать уже наконец эту версию =) Спасибо за историю, дополню обзор практическими примерами обязательно и ваш использую.

      Ответить

      • Дмитрий

        17.09.2015 at 18:07

        Антон, а вы пробовали отправлять в компарсере на удаление\добавление больше 30 адресов? у меня прога вылетает при этом

        Ответить

        • Антон Шабан

          17.09.2015 at 18:46

          Да, Дмитрий, есть такая проблема сейчас. Если есть подобные проблемы — пишите Александру Алаеву, он оперативно отвечает. Сегодня мой коллега ему писал по этой проблем, получил ответ, что проблема решается.

          Ответить

  5. Максим

    22.09.2015 at 11:56

    Опять не пришло на почту:)
    Спасибо за подробный обзор!

    Ответить

    • Антон Шабан

      22.09.2015 at 15:41

      Сознательно не отправлял) Не особо касается блогинга, решил не грузить читателей) возможно, зря. Спасибо)

      Ответить

      • Максим

        22.09.2015 at 21:21

        Ну ок. Наверное, всё-таки возьму Компарсер, только сайт в 30 000 страниц — долгая история:)

        Ответить

        • Антон Шабан

          22.09.2015 at 21:25

          Если такой объёмный сайт, точно пригодится. Парсить быстро не будет, но такой объём точно потянет

          Ответить

          • Дмитрий

            07.11.2015 at 13:36

            А не возникало ли у вас проблем в плане парсинга поисковой выдачи Яндекса для крупных сайтов? Если да, то каким образом решали проблему?

            Я с успехом сканирую выдачу в 500-700 страниц, а вот сайты в 5000-7000 мне еще не удавалось.

            АлаичЪ — в этом плане меня игнорит, я ему видимо надоел со своей проблемой)

          • Антон Шабан

            07.11.2015 at 18:39

            Добрый день, Дмитрий! В таких случаях можно сканировать Вебмастер.Яндекса, у меня без проблем оттуда дергает все страницы, этот метод и использую. Буквально сегодня пропарсил сайт в 3000+ страниц, сначала краулю сайт и строю структуру, потом метод перебора на основании структуры. Также без проблем работать парсинг по xml.
            Если большие сайты парсить в Яндексе по поиску (живой выдаче), то это оочень медленно и очень много капчи, так как много запросов =( В какой-то момент капча сбоит и парсинг просто прекращается (возможно, лимит на количество ошибок и программа оастанавливается).
            Структура также строится не всегда, на мой взгляд, оптимально, поэтому процесс крайне долгий и до конца тоже редко доходит.

  6. Дмитрий

    18.11.2015 at 12:29

    Я пробовал через xml, у меня лимит около 1000 запросов в час. Если кей коллектор останавливается и продолжает собирать данные с нового часа, то компарсер так не умеет. Получается что лимиты не всегда позволяют…

    Спасибо, попробую через вебмастер Яндекса.

    Ответить

    • Антон Шабан

      18.11.2015 at 14:54

      Лимиты докупить можно, конечно, но я обычно в таких случаях пользуюсь Вебмастером. Насчет проблемы в целом: согласен с вами, она есть.

      Ответить

  7. Дмитрий

    13.05.2016 at 11:58

    Яндекс не парсит, пишет — «По вашему запросу ничего не нашлось!» как исправить?

    Ответить

    • Антон Шабан

      14.05.2016 at 23:45

      Дмитрий, программу обновляли? Там в начале мая фиксили парсинг Яндекса. Каким способом парсите? Только что проверил — у меня работает. В суппорт писали?

      Ответить

  8. Ольга

    27.07.2016 at 14:06

    Антон,
    1. показывает ли Компарсер количество редиректов, и урлы, которые участвуют в цепочке?
    2. и показывает ли Компарсер внутренние ссылки по сайту на тот или иной урл?

    Ответить

    • Антон Шабан

      29.07.2016 at 01:12

      Добрый день, Ольга.
      1. Нет, не припомню такой возможности.
      2. Нет

      Но вы можете писать предложения автору программы, Александру Алаеву, ряд из того, что я предлагал, уже внедрено. К пользователям прислушиваются.

      Ответить

Оставить отзыв

Ваш email не будет опубликован.Обязательные поля помечены *

Скоро на блоге:
  • – Кто крадет ваш заработок от рекламы?
  • – Как за 5 минут проверить скорость загрузки всех страниц блога?
  • – Как выбрать фото для блога, которое запомнится + кейс
  • – Как составить убойный title для статьи блога

Подписывайтесь, чтобы не пропустить!

Старый добрый RSS

Удобнее RSS, а не личные письма от меня? У нас свобода подписки =)

Я в Google+