Мне нужно создать систему для извлечения огромных объемов данных из коллекции веб-страниц.Многие из этих сайтов (возможно, около 90%) работают на различных системах javascript.Мне интересно, что является наиболее эффективным методом для извлечения этих данных?
Поскольку каждый сайт отличается от других, я ищу гибкое решение, а поскольку существует много сайтов, я ищу решение, которое будет оказывать как можно меньше нагрузки на мою сеть.
Большая часть моего опыта программирования на C, C ++ и Perl, но я рад тому, что дает лучший результат.
На веб-страницах постоянно обновляются цифры и статистика, которые я хочу извлечь и выполнить некоторый анализ,поэтому мне нужно иметь возможность легко хранить их в базе данных.
Я провел собственное исследование, но здесь я ничего не понимаю.Я надеюсь, что кто-то еще может мне помочь!:)