Я пытаюсь сделать три вещи.
Один: сканировать и архивировать, по крайней мере, ежедневно, заранее определенный набор сайтов.
Два: запускать ночные пакетные скрипты Python на этих данных (текстовая классификация).
Три: предоставить пользователям интерфейс на основе Django, чтобы они могли осуществлять поиск в просканированных данных.
Я играл с Apache Nutch / Lucene, но заставить его хорошо играть с Django кажется слишком сложным, когда я мог просто использовать другой гусеничный движок.
Вопрос 950790 предполагает, что я мог бы просто написать сканер в самом Django, но я не уверен, как это сделать.
В основном - есть ли какие-либо указатели для написания сканера в Django или существующего сканера python, который я мог бы адаптировать? Или я должен включить «превращение в Django-дружественные вещи» во втором шаге и написать немного кода? Или, наконец, я должен отказаться от Джанго вообще? Мне действительно нужно что-то, что может быстро искать с внешнего интерфейса.