Как да укротите бот за търсене: ръководство за индексиране на сайта

Ако интернет е огромна библиотека, търсачките са нейните свръхбързи служители, които могат бързо да ориентират читателя (потребител на интернет) в безкрайния океан от информация. Това им помага да систематизират картовия файл - собствена база данни.

Когато потребителят въведе ключова фраза, търсачката показва резултатите от тази база данни. Това означава, че PSs съхраняват копия на документи на своите сървъри и имат достъп до тях, когато потребителят изпрати заявка. За да се представи определена страница в изхода, тя трябва първо да бъде добавена към базата данни (индекс). Ето защо новосъздадените сайтове, които търсачките не знаят, не участват в издаването.

Търсачката изпраща своя робот (той е паяк, той е робот) в търсене на нови страници, които се появяват в мрежата всяка секунда. Пакетният пакет събира данни, като следва връзките от една страница на друга и ги изпраща в базата данни. Обработката на информация се извършва от други механизми.

Всяка търсачка има свой собствен набор от ботове, които изпълняват различни функции. Ето пример за някои роботи на Яндекс:

  • Главният робот.
  • Image Indexer.
  • Mirrorman (открива огледалата на сайта).
  • Bystrobot. Този човек живее на често актуализираните сайтове. Като правило - новини. Съдържанието се появява в проблема почти веднага след поставянето. При класиране в такива случаи се вземат предвид само някои от факторите, така че позицията на страницата може да се промени след пристигането на основния робот.

Google разполага и със собствен робот за сканиране на новини и снимки, както и индексатор за видео, мобилни сайтове и др.

Скоростта на индексиране на нови сайтове за различни PS е различна. Няма конкретни крайни срокове, има само приблизителна времева рамка: за “Яндекс” - от една седмица до месец, за Google - от няколко минути до седмица. За да не чакате индексация седмици, трябва да работите сериозно. Това ще бъде обсъдено в статията.

Първо нека да разберем как да проверим дали сайтът е индексиран.

Как да проверите индексацията на сайта

Можете да проверите индексирането по три основни начина:

  1. Направете заявка за търсене, като използвате специални оператори.
  2. Използвайте инструменти за уеб администратори (Google Search Console, Yandex.Webmaster).
  3. Използвайте специализирани услуги или изтеглете разширението в браузъра.

Търсене на оператори

Бързо и просто приблизителният брой индексирани страници може да бъде намерен с помощта на оператора място, Той работи същото в Yandex и Google.

Услуги за проверка на индексирането

Безплатните услуги ви позволяват бързо да намерите броя на страниците, индексирани от Yandex и Google. Има, например, много удобен инструмент от XSEO.in и SEOGadget (можете да проверите до 30 сайта едновременно).

RDS разполага с цяла гама от полезни инструменти за проверка на ефективността на уебсайта, включително индексираните страници. Можете да изтеглите удобен плъгин за браузъри (поддържа се Chrome, Mozilla и Opera) или приложение за десктоп.

Като цяло, плъгинът е по-подходящ за професионални SEO. Ако сте обикновен потребител, бъдете готови, че тази програма постоянно ще ви атакува с ненужна информация, залепвайки в кода на страниците, и в резултат ще трябва да го конфигурирате или да го изтриете.

Панели за уеб администратори

Yandex.Webmaster и Google Конзолата за търсене предоставят подробна информация за индексирането. Така казват, от първа ръка.

В старата версия на GSC можете също да видите статистически данни за сканиране и грешки, с които са се сблъскали роботи при достъп до страници.

Можете да прочетете повече за данните за индексиране, представени в панелите за уебмастъри, в съответните раздели на нашите уроци за Яндекс.Вебмастър и Google Конзола за търсене.

Как да контролираме индексирането

Търсачките възприемат уебсайтовете по различен начин от нас. За разлика от средния потребител, търсещият робот вижда цялото съдържание на сайта. Ако не бъде спрян навреме, той ще сканира всички страници, без анализ, включително и тези, които не трябва да се излагат на публично място.

Трябва да се има предвид, че ресурсите на робота са ограничени: има определена квота - броят на страниците, които един паяк може да заобиколи за определено време. Ако вашият сайт има огромен брой страници, има голяма вероятност роботът да похарчи по-голямата част от ресурсите си на "нежелани" страници и да остави важни за бъдещето.

Следователно индексирането може и трябва да се управлява. За да направите това, има някои помощници-помощници, които ще разгледаме по-нататък.

Robots.txt

Robots.txt е прост текстов файл (както може да се досетите от разширението), в който с помощта на специални думи и символи се пишат правила, които търсачките разбират.

Директиви, използвани в robots.txt:

директива

описание

User-Agent

Обжалване пред робота.

Позволете

Разрешаване на индексирането.

Забрани

Деактивиране на индексирането.

домакин

Адресът на основното огледало.

Карта на сайта

Адрес на картата на сайта.

Crawl-закъснение

Времето за забавяне между изтеглянето на страниците на сайта.

Clean-Парам

Страници, с които параметрите трябва да бъдат изключени от индекса.

User-Agent показва коя търсачка се прилагат правилата по-долу. Ако получателят е търсачка, напишете звездичка:

Потребителски агент: Yandex

Потребителски агент: GoogleBot

Потребителски агент: Bingbot

Потребителски агент: Slurp (Робот за търсене в Yahoo!)

Потребителски агент: *

Най-често използваната директива е забраните, Просто се използва за забрана на индексирането на страници, файлове или директории.

Страниците, които трябва да бъдат забранени, включват:

  1. Офис файлове и папки. Административен панел, CMS файлове, потребителски профил, кошница за пазаруване и др.
  2. Нискоинформационни помощни страници, които не е необходимо да се популяризират. Например, биографии на автори на блогове.
  3. Различни типове дублирани главни страници.

На дублиране живеят по-подробно. Представете си, че имате страница с блог със статия. Рекламирахте тази статия на друг ресурс, като добавите UTM маркер към съществуващия URL адрес, за да проследявате реализациите. Адресът се е променил малко, но все пак води до една и съща страница - съдържанието е напълно същото. Това е двойно, което трябва да бъде затворено от индексирането.

Не само статистическите системи са виновни за дублирането на страници. Двойките могат да се появят при търсене на стоки, сортиране, поради наличието на един и същ продукт в няколко категории и т.н. Дори и самите двигатели на сайта често създават голям брой различни дубликати (особено Wordpress и Joomla).

Освен пълните дубликати има и частични. Най-добрият пример е основната страница в блога с съобщения за публикации. По правило съобщенията се вземат от статии, така че на тези страници няма уникално съдържание. В този случай съобщенията могат да бъдат уникално или напълно премахнати (както в блога на Texterra).

Подобни страници (списъци с артикули, каталози на стоки и др.) Също имат навигация по страници (странициране), което разделя списъка на няколко страници. За какво да се прави с тези страници, Google подробно описа в своята помощ.

Двойките могат да навредят на класирането. Например, поради големия им брой, търсачката може да покаже за определени искания напълно различни страници, които сте планирали да популяризират и които бяха подчертани от гледна точка на оптимизацията (например, има страница с подобрени продукти и търсачката показва напълно различна). Ето защо е важно правилно да конфигурирате индексирането на сайта, така че този проблем да не съществува. Само един от начините да се справите с дубликатите е файла robots.txt.

Пример за robots.txt за един известен блог:

Когато компилирате robots.txt, можете да навигирате до други сайтове. За да направите това, просто добавете в края на адреса на главната страница на интересуващия ни сайт след наклонената черта "robots.txt". Само не забравяйте, че сайтовете имат различни функции, така че копирайте директивите на топ конкурентите напълно и живейте спокойно няма да работи. Дори и да решите да изтеглите готово robots.txt за вашата CMS, все още трябва да направите промени, за да отговарят на вашите нужди.

Нека погледнем героите, които се използват при съставянето на правилата.

Посочваме пътя до конкретен файл или папка чрез наклонена черта (/). Ако е указана папка (например, / wp-admin /), всички файлове от тази папка ще бъдат затворени за индексиране. За да укажете конкретен файл, трябва изцяло да посочите неговото име и разширение (заедно с директорията).

Ако например трябва да забраните индексирането на файлове от определен тип или страница, съдържаща параметър, можете да използвате звездички (*):

Disallow: / * openstat =

Disallow: / *? Utm_source =

Disallow: / * цена =

Disallow: / * gclid = *

На мястото на звездичката може да бъде произволен брой знаци (и може да не е изобщо). Иконата $ се използва, когато искате да отмените правило, създадено от иконата *. Например имате страница eda.html и директория / eda. Директивата "/ * eda" ще деактивира индексирането както на директорията, така и на страницата. За да оставите страницата отворена за роботи, използвайте директивата "/ eda $".

Можете също да забраните индексирането на страници с определени параметри, като използвате директивата почистване на Парам, Прочетете повече за това в Помощта на Yandex.

директива позволи позволява индексиране на отделни директории, страници или файлове. Например, трябва да затворите цялото съдържание на папката за качване от PS, с изключение на един pdf-файл. Ето как да го направите:

Disallow: / wp-content / uploads /

Разрешаване: /wp-content/uploads/book.pdf

Следващата важна (за Яндекс) директива е домакин, Тя ви позволява да укажете основното огледало на сайта.

Сайтът може да има няколко версии (домейни) с абсолютно идентично съдържание. Дори ако имате само един домейн, не трябва да пренебрегвате директивата за хоста, това са различни сайтове и трябва да определите коя версия трябва да бъде показана в изхода. Вече сме писали за това подробно в статията "Как да открием основното огледало на сайта и да го конфигурираме с помощта на пренасочване".

Друга важна директива - карта на сайта, Тук (ако има такъв) посочете адреса, на който можете да намерите карта на вашия сайт. Как да го създадем и за какво е, нека поговорим по-късно.

И накрая, директива, която се прилага по-рядко - обхождане закъснение, Тя е необходима в случаите, когато натоварването на сървъра надвишава лимита за хостинг. Това рядко се наблюдава при добри хостове и без никаква видима причина не си струва да се определят сроковете за изтегляне на страници от роботи. В допълнение, байпас скоростта може да се регулира в Yandex.Webmaster.

Трябва да се отбележи, че търсачките се отнасят по различен начин до robots.txt. Ако за Яндекс е набор от правила, които не трябва да се нарушават, тогава Google го възприема по-скоро като препоръка и може да игнорира някои директиви.

Кирилицата не може да се използва в robots.txt. Следователно, ако имате кирилица, използвайте онлайн конвертори.

След като създадете файла, трябва да го поставите в главната директория на сайта, т.е.: site.ru/robots.txt.

Можете да проверите robots.txt за грешки в секцията Инструменти на панела Yandex.Webmaster:

Старата версия на конзолата за търсене на Google също има този инструмент.

Как да затворите сайта от индексиране

Ако по някаква причина сайтът трябва да изчезне от изхода на всички търсачки, това е много лесно:

Потребителски агент: *

Disallow: /

Много е желателно да направите това, докато сайтът е в процес на изграждане. За да отворите отново сайта за търсене роботи, просто премахнете наклонена черта (най-важното - не забравяйте да го направите, когато стартирате сайта).

Nofollow и noindex

За да зададете индексирането, се използват и специални атрибути и html тагове.

Yandex има свой собствен етикет, с който можете да кажете на робота коя част от текста не трябва да индексира. Най-често това са официални части от текста, които не трябва да се показват в фрагмент или фрагменти, които не трябва да се вземат под внимание при оценката на качеството на страницата (нееднозначно съдържание).

Проблемът е, че на практика никой освен Яндекс не разбира този етикет, така че повечето валидатори дават грешки при проверка на кода. Това може да бъде коригирано чрез леко променяне на външния вид на маркерите:

текста

Атрибутът rel = ”nofollow” ви позволява да затваряте отделни връзки на страницата от индексиране. За разлика от него, всички търсачки разбират. За да забраните на робота да премине през всички връзки на страницата наведнъж, по-лесно е да се използва този мета маркер:.

Между другото, роботите с мега-тагове си струва да бъдат разгледани по-подробно. Подобно на файла robots.txt, той ви позволява да управлявате индексирането, но по-гъвкаво. За да разберете принципа на работа, разгледайте инструкциите за опции:

индекс съдържание и връзки

не индексирайте съдържание и връзки

не индексирайте съдържанието, а следвайте връзките

индекс съдържание, но не следвайте връзки

Това не са всички примери за използването на мета тагове на роботи, тъй като има и други директиви в допълнение към nofollow и noindex. Например, noimageindex, който забранява сканирането на изображения на страница. Можете да прочетете повече за този мета маркер и неговото приложение в помощта от Google.

Отношение = „канонично“

Друг начин да се справим с дубликатите е да използваме атрибута rel = ”canonical”. За всяка страница можете да зададете каноничен (предпочитан) адрес, който ще се показва в резултатите от търсенето. Като регистрирате атрибут в дублиращия се код, вие го прикрепяте към главната страница и няма да има объркване с неговите версии. Ако двойното има референтно тегло, то ще бъде предадено на главната страница.

Да се ​​върнем към примера на страниците в Wordpress. С помощта на All in One SEO плъгина можете да решите проблема с дубликати от този тип с едно кликване. Нека видим как работи.

Нека отидем на главната страница на блога и да отворим, например, втората страница на страниците.

Сега нека разгледаме изходния код, а именно етикета с атрибута rel = "canonical" в раздела. Първоначално изглежда така:

Каноничната връзка е зададена неправилно - тя просто повтаря физическия адрес на страницата. Това трябва да бъде фиксирано. Отидете в общите настройки на плъгина "Всичко в едно" и поставете отметка в квадратчето "Не е налице Pagination за канонични URL адреси"(Деактивиране на страниците за канонични URL адреси). T

След като актуализираме настройките, отново разглеждаме кода, сега трябва да бъде така:

И така - на всяка страница, независимо дали е втора или двадесета. Бързо и лесно.

Но има един проблем. За Google този метод не е подходящ (той самият пише за него), а използването на каноничния атрибут може да повлияе отрицателно върху индексирането на страниците на страниците. Ако за блога това по принцип не е страшно, тогава е по-добре да не експериментирате с продуктовите страници, а да използвате атрибутите rel = ”prev” и rel = ”next”. Само "Яндекс" ги игнорира, според Платон Шукин. По принцип всичко е двусмислено и нищо не е ясно, но това е нормално - това е SEO.

Sitemap (Sitemap)

Ако файлът robots.txt укаже на робота кои страници да го докосне, то тогава картата на сайта, напротив, съдържа всички връзки, които трябва да бъдат индексирани.

Основното предимство на картата на сайта е, че в допълнение към списъка със страници съдържа полезни данни за робота - датата и честотата на актуализациите за всяка страница и нейният приоритет за сканиране.

Файлът sitemap.xml може да се генерира автоматично, като се използват специализирани онлайн услуги. Например, Gensitemap (rus) и XML-Sitemaps (eng). Те имат ограничения върху броя на страниците, така че ако имате голям сайт (повече от 1000 страници), ще трябва да платите символична сума, за да създадете карта. Можете също да получите готовия файл с помощта на приставката. Най-лесният и удобен Wordpress плъгин е Google XML Sitemaps. Той има много различни настройки, но те са лесни за разбиране.

Резултатът е проста и удобна карта на сайта под формата на таблети. И става достъпна веднага след активирането на плъгина.

Sitemap е изключително полезен за индексиране, тъй като роботите често обръщат голямо внимание на старите страници и игнорират нови. Когато има карта на сайта, роботът вижда кои страници са се променили и когато влиза в сайта, първо ги посещава.

Ако сте създали карта на сайта, използвайки услуги на трети страни, готовият файл трябва да бъде изтеглен и поставен, като robots.txt, в папката на хоста, където се намира сайтът. Отново в главната папка: site.ru/sitemap.xml.

За удобство е препоръчително да качите файла в специален раздел в Yandex.Webmaster и Google Search Console.

В старата версия инструментът е малко по-различен.

В Yandex.Webmaster можете да проверите съдържанието на картата на сайта за грешки в секцията Инструменти.

Как да ускорите индексирането

Търсачките рано или късно ще разберат за вашия сайт, дори и да не правите нищо за него. Но вие вероятно искате да получите клиенти и посетители възможно най-скоро, а не в месеци, така че забавянето с индексирането е на загуба.

Редовното бързо индексиране е необходимо не само за нови, но и за съществуващи сайтове - за своевременно актуализиране на данните в търсенето. Представете си, че сте решили да оптимизирате старите непривлекателни заглавки и фрагменти, за да увеличите CTR в проблема. Ако изчакате, докато самият робот реиндексира всички страници, можете да загубите много потенциални клиенти.

Ето още няколко причини, за да „нахраните“ новите страници на роботи възможно най-бързо:

  • Сайтът публикува съдържание, което бързо губи своята уместност. Ако дневните новини са индексирани и ще бъдат пуснати след седмица, каква е ползата от нея?
  • Измамниците са научили за сайта и следват актуализациите по-бързо от всеки робот: веднага след като публикувате нов материал, те го копират сами и безопасно попадат в първите позиции поради по-бързото индексиране.
  • На страницах появляются важные изменения. К примеру, у вас изменились цены или ассортимент, а в поиске показываются старые данные. В результате пользователи разочаровываются, растет показатель отказов, а сайт рискует опуститься в поисковой выдаче.

Ускорение индексации - работа комплексная. Каких-то конкретных способов здесь нет, так как каждый сайт индивидуален (как и серверы, на которых они расположены). Но можно воспользоваться общими рекомендациями, которые, как правило, позитивно сказываются на скорости индексирования.

Нека накратко посочим какво може да се направи, за да направи сайта индексиран по-бързо:

  1. Кажете на роботите какво да индексират и какво да не индексират. За robots.txt, карта на сайта и всичките им предимства, ние вече казахме. Ако файловете се компилират правилно, ботовете ще се справят по-бързо с количеството нова информация, която е паднала върху тях.
  2. Регистрирайте се с Yandex.Webmaster и конзолата за търсене на Google. Там можете не само да декларирате нов сайт, но и да получите достъп до важни инструменти и анализи.
  3. Обърнете внимание на самия сайт. За да улесни робота (както и потребителите) при навигацията в сайта, той трябва да има ясна и проста структура и лесна навигация. Това включва и компетентно свързване, което може да помогне при навигирането на сайта и намирането на важни страници. Качеството на съдържанието може също да повлияе на скоростта на индексиране, така че е по-добре да публикувате полезни уникални текстове.
  4. Публикувайте на външни сайтове. Много хора препоръчват да се регистрират сайтове в социални услуги за маркиране, директории, „преследване” в Twitter, закупуване на връзки и т.н. Това не ми помогна в моето време - новият сайт беше индексиран за един месец. Но връзките от големи посетени ресурси (където може да живее дори и стабилността) наистина могат да помогнат. Имахме много статии за това как и къде да публикуваме: „Публикуване на гост: как да публикуваме, да вмъкваме връзки и да не плащаме за него”, „Външен маркетинг на съдържанието: защо, какво да пиша и къде”, ръководство за изграждане на връзки.
  5. По-често актуализирайте сайта. Ако нови материали не се публикуват на сайта в продължение на месеци, роботът променя тактиката и посещава сайта по-рядко.

Можете също да изпращате роботи на определени страници в панелите Yandex.Webmasters и Google Search Console.

Моля, обърнете внимание, че можете да добавяте отделни адреси към важни, за да проследявате тяхното индексиране по-късно.

И ето още едно полезно нещо: тук можете да разберете дали даден индекс е индексиран.

В Google можете да заявите индексиране на конкретни страници в раздела „Вижте като Googlebot“ (стара версия).

Това са може би най-основните начини за ускоряване на индексирането. Има и други, но тяхната ефективност е под въпрос. В повечето случаи не трябва да прекарвате време в тях, ако трябва само да индексирате сайта незабавно, и сте готови да изпробвате някакви методи. В такива случаи е по-добре да се четат конкретни случаи. Например как да индексирате сайт в Google в рамките на 24 часа.

заключение

Индексирането на сайта е сложен процес, който търсачките не винаги се справят сами. Тъй като индексирането пряко засяга класирането на даден сайт в резултатите от търсенето, има смисъл да поемете контрола в свои ръце и да опростите работата на търсещите роботи колкото е възможно повече. Да, трябва да карате и да запълвате много конуси, но дори и такъв непредсказуем звяр като търсен бот все още може да се подчини на човек.

Гледайте видеоклипа: Age of Deceit 2 - Hive Mind Reptile Eyes Hypnotism Cults World Stage - Multi - Language (Ноември 2019).

Loading...

Оставете Коментар