Internet Archive игнорирует директивы robots.txt при сканировании файлов
Разработчики сервиса Internet Archive решили, что наступило время, когда их паук будет игнорировать содержимое файла robots.txt и сканировать все папки сайтов без исключения. Нововведения в поведении сканирующего бота связаны с потерями истории доменов для брошенных сайтов.
Файл robots.txt используется веб-мастерами уже более 20 лет для скрытия от поисковых ботов определенных папок со служебной или дублирующейся информацией для улучшения SEO положения сайта.
Проблема для бота сервиса Internet Archive заключается в том, что брошенные сайты имеют доменные имена, которые не продлеваются, а содержание просто уничтожается. Затем, при парковке домена с различными целями (обычно для размещения рекламы) веб-мастер при помощи файла robots.txt закрывает все содержимое. А сканирующий бот архиватора Интернет при обнаружении скрывающей весь сайт инструкции удаляет всё содержимое из архива, которое ранее сохранялось для домена. То есть история сайта полностью удаляется из базы данных сервиса. А данные могут представлять ценность для определенной аудитории и при этом никак не связаны с текущим владельцем домена.
Эксперименты с отказом от следования инструкциям файла robots.txt уже несколько месяцев проводятся для государственных сайтов США. Отличные результаты испытаний позволили владельцам сервиса расширить практику на все остальные сайты.
В настоящее время разработчики сервиса ведут наблюдение за работой сканирующего бота. При получении положительных результатов практика будет закреплена на постоянной основе.
Если владелец сайта желает удалить содержимое своего ресурса из архива, то ему нужно обратиться к администрации Internet Archive с соответствующим запросом.
Новости
Лучшие выделенные сервера с GPU в аренду на июнь 2024 года для российских пользователей28 июня 2024, 08:08Юридические услуги от хостинга Бегет
26 июня 2024, 08:58Серверы Dell EMC PowerEdge: высокопроизводительные и надежные решения для современного бизнеса
18 июня 2024, 08:34Акция от Спринтхост: ускорьте свои сайты
31 мая 2024, 09:12Shutterstock официально приобрела Envato (включая Envato Elements) за 245 миллионов долларов
22 мая 2024, 09:10