У меня есть пара сайтов, с которых я хочу извлекать данные и основываясь на предыдущем опыте, это не так просто, как кажется. Зачем? Просто потому, что HTML-страницы, которые я должен проанализировать, не отформатированы должным образом (отсутствует закрывающий тег и т. Д.).
Учитывая, что у меня нет ограничений в отношении технологии, языка или инструмента, которые я могу использовать, Каковы ваши предложения по простому анализу и извлечению данных из страниц HTML ? Я пробовал HTML Agility Pack, BeautifulSoup, и даже эти инструменты не идеальны (HTML Agility Pack содержит ошибки, и механизм синтаксического анализа BeautifulSoup не работает со страницами, которые я ему передаю).
Спасибо!