Это будет зависеть от того, как часто меняется контент. Например, имеет смысл сканировать новостной сайт чаще, чем сайт со статическими статьями.
Относительно того, как именно определить оптимум - это будет зависеть от того, как вы оцените стоимость выборки, индексации и т. Д. В сравнении со стоимостью наличия актуальных данных. Это зависит только от вас - но вам, вероятно, придется использовать некоторую эвристику, чтобы определить, насколько сильно сайт меняется с течением времени, основываясь на наблюдениях. Если сайт не изменился три раза подряд, вы можете подождать немного дольше, прежде чем извлекать его в следующий раз. И наоборот, если сайт всегда меняется каждый раз, когда вы его выбираете, вы можете быть немного агрессивнее, чтобы не пропустить обновления.