• Главная
  • Новости
  • Internet Archive игнорирует директивы robots.txt при сканировании файлов

Internet Archive игнорирует директивы robots.txt при сканировании файлов


Разработчики сервиса Internet Archive решили, что наступило время, когда их паук будет игнорировать содержимое файла robots.txt и сканировать все папки сайтов без исключения. Нововведения в поведении сканирующего бота связаны с потерями истории доменов для брошенных сайтов.

Файл robots.txt используется веб-мастерами уже более 20 лет для скрытия от поисковых ботов определенных папок со служебной или дублирующейся информацией для улучшения SEO положения сайта.

Проблема для бота сервиса Internet Archive заключается в том, что брошенные сайты имеют доменные имена, которые не продлеваются, а содержание просто уничтожается. Затем, при парковке домена с различными целями (обычно для размещения рекламы) веб-мастер при помощи файла robots.txt закрывает все содержимое. А сканирующий бот архиватора Интернет при обнаружении скрывающей весь сайт инструкции удаляет всё содержимое из архива, которое ранее сохранялось для домена. То есть история сайта полностью удаляется из базы данных сервиса. А данные могут представлять ценность для определенной аудитории и при этом никак не связаны с текущим владельцем домена.

Эксперименты с отказом от следования инструкциям файла robots.txt уже несколько месяцев проводятся для государственных сайтов США. Отличные результаты испытаний позволили владельцам сервиса расширить практику на все остальные сайты.

В настоящее время разработчики сервиса ведут наблюдение за работой сканирующего бота. При получении положительных результатов практика будет закреплена на постоянной основе.

Если владелец сайта желает удалить содержимое своего ресурса из архива, то ему нужно обратиться к администрации Internet Archive с соответствующим запросом.

Ошибка в тексте

Послать сообщение об ошибке администратору?
Ваш браузер останется на той же странице.

Ваше сообщение отправлено. Спасибо!

Окно закроется автоматически через 3 секунды

Наверх