robots.txt — основний синтаксис

Основна місія файлу  — допомагати пошуковим ботам фокусуватись на необхідному і відсіювати системні директорії. Допомога власне полягає в тому, що пошукові боти не витрачають час на численні файли плагінів та ядра системи, які не відносяться до контенту сайту.

Синтаксис доволі нескладний:

User – agent : * — визначаємо ім’я бота, для якого будуть застосовуватись інструкції, в даному випадку команди стосуватимуться усіх ботів. Для прикладу, можна конкретизувати адресацію, ось назвиська основних ботів:

  • Googlebot — основний пошуковий бот від Google;
  • Slurp — посильний від Yahoo!;
  • MSNBot — пошуковий бот MSN (система Bing від MicroSoft).

Allow: / , Disallow: / — дозволяємо або забороняємо індексування директорій (в даному випадку мова йде про увесь сайт.

Disallow: /? — забороняємо ботам динамічні запити з головної сторінки.

Disallow: /about.html — забороняємо сканування статичної сторінки “про нас”.

Забороняємо індексувати картинки на сайті:

User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif

Далі, забороняємо індексувати усі сторінки сайту, окрім головної:

User-agent: *
Disallow: /
Allow: /$

В наступному варіанті ми забороняємо індексування директорії “/hide/map/ ” для загалу, але дозволяємо обхід для бота: cybermapper.

User-Agent: *
Disallow: /hide/map/ 
User-Agent: cybermapper
Disallow:

Загалом можна ще вказувати хост (головне дзеркало сайту), адресу сайтмапу, частоту індексації та GET-параметри, які не актуальні для контексту (наприклад, реферальні лінки). Проте того, що перераховано в матеріалі достатньо для більшості випадків оптимізації. Смачного.

Залишити відповідь