Не смог наскрести данные на английском, помогите! - PullRequest
0 голосов
/ 07 июня 2011

У меня есть веб-сайт, который я пытаюсь очистить с помощью Python и BeautifulSoup.Сам сайт можно просматривать на 2 языках (тайском или английском);все, что вам нужно сделать, это нажать на флаг Таиланда или Великобритании в верхнем правом углу экрана, и данные отобразятся на выбранном языке.Однако, когда дело доходит до сценария, я могу только очистить данные на тайском (который является языком по умолчанию), и я не мог понять, как получить данные на английском, потому что URL не меняется, когда вы нажимаете наТайский или британский флаг.Глядя на источник для страницы, нет никакого href, связанного с любым флагом.Я включил трассировку Firebug и попытался найти что-то, чтобы дать мне подсказку, но ничего не нашел (опять же, вам нужно будет точно знать, что искать, чтобы узнать, что происходит, и это моя проблема).

Спасибо, Гленн

Ответы [ 2 ]

2 голосов
/ 07 июня 2011

Вы еще не сказали, что на сайте так сложно ответить наверняка. Но пара предложений. Если при нажатии на этот флажок URL-адрес не изменяется, то либо:

а) Английский уже есть в HTML-документе, а соответствующий контент переключается с помощью JavaScript б) английский контент извлекается через ajax-запрос, а javascript используется для редактирования DOM в) Страница полностью перезагружается с английским контентом.

Предположительно во всех этих случаях языковые предпочтения должны храниться либо на стороне сервера в сеансе, либо на стороне клиента с файлами cookie.

Сначала попробуйте отключить файлы cookie и javascript, чтобы увидеть, что происходит. Затем с файлами cookie снова включите js, используйте Firebug или Firefox для просмотра сетевых запросов.

1 голос
/ 08 июня 2011

Вот файл cookie:

Cookie  verify=test; LangName=th; ASP.NET_SessionId=ylulkp45qpjq2b453nurlp55; _cbclose=1; _cbclose30246=1; _uid30246=66B70BE9.1; _ctout30246=1

Если вы измените язык, он устанавливает LangName = en.

urllib2, который может использоваться вместе с cookielib для включения сохраненияповторное использование куки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...