Как извлечь текст с веб-страницы, которая требует входа в систему с использованием Python и красивый суп? - PullRequest
0 голосов
/ 02 июня 2011

Мне нужно получить текст с сайта morningstar.com.Чтобы получить доступ к этим данным, я должен войти в систему. Как только я войду в систему и предоставлю URL веб-страницы, я получаю текст HTML обычного пользователя (не вошел в систему). В результате я не могу получить эту информацию.ЛЮБЫЕ РЕШЕНИЯ?

1 Ответ

3 голосов
/ 02 июня 2011

BeautifulSoup для анализа html, как только вы уже получили его. Вы можете получить html, используя любую стандартную библиотеку для получения URL. Я предпочитаю curl, так как вы пометили свой пост, встроенный в python urllib2 также хорошо работает.

Если вы говорите, что после входа в систему html-ответ такой же, как и для тех, кто не вошел в систему, я думаю, что по какой-то причине ваш логин не работает. Если вы используете urllib2, убедитесь, что вы правильно сохранили файл cookie после первого входа в систему, а затем передали этот файл cookie в urllib2 при отправке запроса данных?

Было бы полезно, если бы вы опубликовали код, который используете для выполнения двух запросов (начальный вход в систему и попытка получить данные).

...