Internet Archive игнорирует директивы robots.txt при сканировании файлов
Разработчики сервиса Internet Archive решили, что наступило время, когда их паук будет игнорировать содержимое файла robots.txt и сканировать все папки сайтов без исключения. Нововведения в поведении сканирующего бота связаны с потерями истории доменов для брошенных сайтов.
Файл robots.txt используется веб-мастерами уже более 20 лет для скрытия от поисковых ботов определенных папок со служебной или дублирующейся информацией для улучшения SEO положения сайта.
Проблема для бота сервиса Internet Archive заключается в том, что брошенные сайты имеют доменные имена, которые не продлеваются, а содержание просто уничтожается. Затем, при парковке домена с различными целями (обычно для размещения рекламы) веб-мастер при помощи файла robots.txt закрывает все содержимое. А сканирующий бот архиватора Интернет при обнаружении скрывающей весь сайт инструкции удаляет всё содержимое из архива, которое ранее сохранялось для домена. То есть история сайта полностью удаляется из базы данных сервиса. А данные могут представлять ценность для определенной аудитории и при этом никак не связаны с текущим владельцем домена.
Эксперименты с отказом от следования инструкциям файла robots.txt уже несколько месяцев проводятся для государственных сайтов США. Отличные результаты испытаний позволили владельцам сервиса расширить практику на все остальные сайты.
В настоящее время разработчики сервиса ведут наблюдение за работой сканирующего бота. При получении положительных результатов практика будет закреплена на постоянной основе.
Если владелец сайта желает удалить содержимое своего ресурса из архива, то ему нужно обратиться к администрации Internet Archive с соответствующим запросом.
Новости
Коммутаторы Cisco на страже современных сетевых технологий18 сентября 2024, 07:45WP 6.6 представит больше функций ИИ, разрушающих сеть
04 сентября 2024, 13:41FusionServer 2288H V5 02311XBK: решение сложных бизнес-задач и оптимизация IT-инфраструктуры
20 августа 2024, 13:35Аренда серверной стойки в дата-центре
20 августа 2024, 07:26WP 6.6.1 помечен как вредоносный троян. Что делать?
13 августа 2024, 08:12