В моей системе поиска я установил интервал выборки как 30 дней. Сначала я настроил свой пользовательский агент как «....», затем многие URL-адреса были отклонены. Но после изменения моего пользовательского агента на подходящее имя, я хочу получить те URL, которые изначально были отклонены.
Но дело в том, что те URL-адреса, которые имеют статус db_gone, будут иметь интервал повторения 45 дней. Так что генератор не выберет это. Итак, как мне получить эти URL со статусом db_gone?
Есть ли у Nutch по умолчанию какие-либо опции для сканирования этих URL-адресов db_gone в одиночку?
Или мне нужно написать отдельную программу для уменьшения карт, чтобы собирать эти URL и использовать freegen для генерации сегментов для них?