PHP Twitter Твиты Язык - PullRequest
       1

PHP Twitter Твиты Язык

2 голосов
/ 11 марта 2011

Я создаю сайт, который использует твиты из общедоступной временной шкалы Twitters.

http://twitter.com/statuses/public_timeline.xml

Я не хочу твитов на китайском, русском и т. Д. Я хочу все, крометвиты, которые написаны в символах.

Вот пример того, что я не хочу: ス ポ ー ツ ブ ラ ド ド ド1009 * Я пробовал mb_detect_encoding UTF8, но это не работает.

Ответы [ 3 ]

2 голосов
/ 11 марта 2011

Вы можете просто использовать Google Language API:

GET https://www.googleapis.com/language/translate/v2?key=INSERT-YOUR-KEY&target=de&q=Hello%20world

и он вернет язык в формате JSON:

{
    "data": {
        "translations": [
            {
                "translatedText": "Hallo Welt",
                "detectedSourceLanguage": "en"
            }
        ]
    }
}

Пример взят из официальной документации , поиск "Вот еще один пример, в котором язык исходного текста определяется автоматически:"

0 голосов
/ 11 марта 2011

Я не думаю, что есть способ объявить языковой фильтр при запросе общедоступной временной шкалы.

Однако поле language возвращается в общедоступном запросе временной шкалы для пользователя, разместившего твит. Вы можете фильтровать это с довольно высокой степенью уверенности.

0 голосов
/ 11 марта 2011

Все кодировки одинаковые, английские посты тоже в UTF-8;)

Существует два варианта, либо найти решение из API Twitter, которое позволяет фильтровать только сообщения на английском языке.

Или вы можете использовать регулярное выражение и цикл для фильтрации постов с использованием нелатинских / латинских символов в них.

preg_match('/[^\00-\255]+/u', $post);

Надеюсь, это поможет,

Niko

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...