Очистка списка Top 250 IMDB дает некоторые результаты на иностранных языках? - PullRequest
1 голос
/ 28 декабря 2010

Мой сервер взял эту страницу, чтобы загрузить полный список для анализа фильма, который я делаю: http://www.imdb.com/chart/top

Но когда это происходит, многие названия фильмов появляются на другом языке. Например, вместо того, чтобы сказать «Побег из Шоушенка», он дает мне: Побег из Шоушенка

Простой файл file_get_contents в PHP - самый быстрый способ воспроизведения, хотя я использую curl

У кого-нибудь есть идеи, что происходит, как исправить?

ОБНОВЛЕНИЕ: IMDB может интерпретировать мой сервер как находящийся в другой стране по какой-то странной причине. Есть ли способ обеспечить его соблюдение в США?

Ответы [ 2 ]

1 голос
/ 04 января 2011

Используйте учетную запись пользователя и установите язык отображения заголовков на https://secure.imdb.com/register-imdb/siteprefs

Затем автоматизируйте процесс входа в систему в своем скребке и следуйте обычному процессу.

0 голосов
/ 30 декабря 2010

Я знаю, как справиться с этим в среде Windows.Вы можете заимствовать ту же идею для вашей серверной ОС.

В Windows с элементом управления WebBrowser вы можете использовать меню Вид -> Кодировка, чтобы выбрать любой язык, на котором правильно отображается текст, а затем при извлечении исходной страницы из элемента управления браузера она будет в правильной кодировке,

Веб-скребок IRobotSoft может оказаться простым в использовании для анализа фильмов, который работает только на платформе Windows.

...