Для сканування веб-сайтів пошукові системи використовують роботів (павуків, краулерів) - програми для індексації сторінок і занесення отриманої інформації в базу даних. Принцип дії павука схожий на роботу браузера: він оцінює вміст сторінки, зберігає її на сервері пошукової системи і переходить за гіперпосиланнями в інші розділи.
Розробники пошукових систем можуть обмежувати максимальний обсяг сканируемого тексту і глибину проникнення робота всередину ресурсу. Тому для ефективної розкрутки сайту ці параметри коригують відповідно до особливостей індексації сторінок різними павуками.
Частота візитів, порядок обходу сайтів і критерії визначення релевантності інформації запитам користувачів задаються пошуковими алгоритмами. Якщо на просувний ресурс веде хоча б одне посилання з іншого веб-сайту, роботи з часом його проїндексируют (чим більше вага линка, тим швидше). У зворотному випадку для прискорення розкрутки сайту його URL додають в базу даних пошукових систем вручну.
Види павуків
Залежно від призначення розрізняють такі види пошукових роботів.
- національні, або головні. Збирають інформацію з одного національного домену, наприклад, .ru або .su, і прийнятих до індексації сайтів;
- глобальні. Збиратимуть даних з усіх національних сайтів;
- індексатори картинок, аудіо та відео файлів;
- Дзеркальники. Визначають дзеркала ресурсів;
- посилальні. Підраховують число посилань на сайті;
- подсветчікі. Оформляють результати пошукових систем, наприклад, виділяють в тексті запитувані словосполучення;
- перевіряючі. Контролюють наявність ресурсу в базі даних пошукової системи і число проіндексованих документів;
- стукачі (або дятли). Періодично визначають доступність сайту, сторінки або документа, на який веде посилання;
- шпигуни. Виконують пошук посилань на ресурси, ще не проіндексовані пошуковими системами;
- доглядачі. Запускаються в ручному режимі і перевіряють отримані результати;
- дослідники. Використовуються для налагодження пошукових алгоритмів і вивчення окремих сайтів;
- швидкі роботи. В автоматичному режимі перевіряють дату останнього оновлення і оперативно індексують нову інформацію.
Позначення
При пошукової оптимізації сайту частина контенту закривають від індексації роботами (особисте листування відвідувачів, кошики замовлень, сторінки з профілями зареєстрованих користувачів і т.д.). Для цього в файлі robots.txt в поле User-agent прописують імена роботів: для пошукової системи Яндекс - Yandex, для Google - Googlebot, для Rambler - StackRambler, для Yahoo - Yahoo! Slurp або Slurp, для MSN - MSNBot, для Alexa - ia_archiver і т.д.