Я хотел бы получить данные с разных веб-страниц, таких как адреса ресторанов или даты различных событий для данного местоположения и так далее. Какую библиотеку лучше всего использовать для извлечения этих данных с заданного набора сайтов?
Я бы порекомендовал BeautifulSoup . Он не самый быстрый, но работает очень хорошо в отношении неэффективности (X) HTML-страниц, которые душит большинство анализаторов.
Вы можете использовать tidy , чтобы преобразовать его в XHTML, а затем использовать любые средства обработки XML, доступные на вашем языке.
Какой язык вы хотите использовать?
Скручивание с awk может быть всем, что вам нужно.