Парсинг сайта - PullRequest
       31

Парсинг сайта

1 голос
/ 07 апреля 2010

Я хочу создать программу, которая принимает в качестве пользователя адрес веб-сайта.Затем программа переходит на этот веб-сайт, загружает его и затем анализирует информацию внутри.Он выводит новый HTML-файл, используя информацию с веб-сайта.

В частности, эта программа будет делать определенные ссылки с веб-сайта и помещать ссылки в выходной HTML-файл, а все остальные.

Сейчас я просто хочу сделать это для веб-сайтов, которые не требуют входа в систему, но позже я хочу, чтобы это работало для сайтов, на которых вы должны войти, поэтому он должен иметь возможностьиметь дело с куки.

Я также хочу позже, чтобы программа могла исследовать определенные ссылки и загружать информацию с этих других сайтов.

Каковы лучшие языки программирования или инструменты длясделать это?

Ответы [ 2 ]

3 голосов
/ 07 апреля 2010

Beautiful Soup (Python) очень рекомендуется, хотя у меня нет опыта лично.

1 голос
/ 07 апреля 2010

Python.

Довольно просто написать простой сканер, используя стандартные библиотеки python, но вы также сможете найти некоторые существующие библиотеки сканеров python, доступные в Интернете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...