Я работаю над небольшим проектом по анализу контента на некоторых сайтах, которые мне кажутся интересными; это настоящий проект DIY, который я делаю для своего развлечения / просветления, поэтому я бы хотел написать как можно больше кода самостоятельно.
Очевидно, мне понадобятся данные для подачи моего приложения, и я подумал, что напишу небольшой сканер, который будет занимать около 20 тыс. Страниц html и записывать их в текстовые файлы на моем жестком диске. Однако, когда я взглянул на SO и другие сайты, я не смог найти никакой информации о том, как это сделать. Это возможно? Кажется, что есть варианты с открытым исходным кодом (webpshinx?), Но я хотел бы написать это сам, если это возможно.
Схема - единственный язык, который я хорошо знаю, но я подумал, что воспользуюсь этим проектом, чтобы немного освоить Java, поэтому мне было бы интересно, есть ли какие-нибудь библиотеки ракеток или java, которые были бы полезны для этого.
Итак, я думаю, чтобы подвести итог моего вопроса, какие есть хорошие ресурсы, чтобы начать работу над этим? Как я могу заставить свой сканер запрашивать информацию с других серверов? Придется ли мне писать простой парсер для этого или это излишне, учитывая, что я хочу взять весь html-файл и сохранить его как txt?