У меня есть около 10 странных сайтов, с которых я хотел бы почистить.Несколько из них - блоги WordPress, и они следуют той же самой структуре HTML, хотя и с различными классами.Остальные - форумы или блоги других форматов.
Информация, которую я люблю просматривать, является обычной: содержание сообщения, метка времени, автор, заголовок и комментарии.
Мой вопросмне нужно создать один отдельный паук для каждого домена?Если нет, то как я могу создать универсального паука, который позволяет мне очищать, загружая параметры из файла конфигурации или чего-то подобного?
Я подумал, что мог бы загрузить выражения xpath из файла, местоположение которого можно загрузить через командную строкуно, похоже, возникают некоторые трудности, когда для очистки некоторого домена требуется использование регулярного выражения select(expression_here).re(regex)
, а для некоторых - нет.