Internet Archive игнорирует директивы robots.txt при сканировании файлов
Разработчики сервиса Internet Archive решили, что наступило время, когда их паук будет игнорировать содержимое файла robots.txt и сканировать все папки сайтов без исключения. Нововведения в поведении сканирующего бота связаны с потерями истории доменов для брошенных сайтов.
Файл robots.txt используется веб-мастерами уже более 20 лет для скрытия от поисковых ботов определенных папок со служебной или дублирующейся информацией для улучшения SEO положения сайта.
Проблема для бота сервиса Internet Archive заключается в том, что брошенные сайты имеют доменные имена, которые не продлеваются, а содержание просто уничтожается. Затем, при парковке домена с различными целями (обычно для размещения рекламы) веб-мастер при помощи файла robots.txt закрывает все содержимое. А сканирующий бот архиватора Интернет при обнаружении скрывающей весь сайт инструкции удаляет всё содержимое из архива, которое ранее сохранялось для домена. То есть история сайта полностью удаляется из базы данных сервиса. А данные могут представлять ценность для определенной аудитории и при этом никак не связаны с текущим владельцем домена.
Эксперименты с отказом от следования инструкциям файла robots.txt уже несколько месяцев проводятся для государственных сайтов США. Отличные результаты испытаний позволили владельцам сервиса расширить практику на все остальные сайты.
В настоящее время разработчики сервиса ведут наблюдение за работой сканирующего бота. При получении положительных результатов практика будет закреплена на постоянной основе.
Если владелец сайта желает удалить содержимое своего ресурса из архива, то ему нужно обратиться к администрации Internet Archive с соответствующим запросом.
Новости
Внимание! Прекращение оказания услуг хостинга53 минуты назадНовогодний промокод на скидку 5% от King Servers
09 января 2025, 08:23У Спринтхост стартовала самая выгодная акция в году
19 декабря 2024, 06:39Новогодняя акция на Джино - Саундбар в подарок при оплате хостинга
12 декабря 2024, 08:29Новости от хостинга Fornex
11 декабря 2024, 08:37