Потоковый API с языками - PullRequest
       4

Потоковый API с языками

6 голосов
/ 22 сентября 2010

В любом случае, я могу получить только английские твиты с помощью API Twitter Straeming? Похоже, что использование «образца» или «фильтра» приводит к 60-70 процентам неанглийских твитов.

Спасибо

Joel

Ответы [ 5 ]

7 голосов
/ 23 февраля 2011

Я не нашел хорошего решения для этого, я решил это с помощью следующего:

1) фильтр по атрибуту lang, равный "en".

2) Iобнаружил, что несколько неанглийских языков все еще находятся в английских помеченных твитах.Итак, я загрузил списки испанских, голландских и индонезийских слов и проверил количество вхождений неанглийских слов в твиты.Больше 1, и я отбрасываю его как неанглийский.

3) Я думаю, мне нужно отфильтровать и португальский, нужно исследовать это.

6 голосов
/ 28 июня 2012

Фильтрация только англоязычных сообщений из твиттера является активной областью исследований.Вы можете использовать стандартную систему языковой идентификации для локальной обработки потока и выбора только сообщений на английском языке.Одной из таких систем является langid.py .Полное раскрытие, я автор langid.py.

Другая известная мне система - ldig от Накатани Шуйо .У меня еще не было возможности поэкспериментировать с ним, но он сделан специально для языковой идентификации сообщений в Twitter.

3 голосов
/ 25 февраля 2013

Твиттер скоро выпустит новый (или обновленный) атрибут только для этой цели!См. Их сообщение в блоге, Представление новых метаданных для твитов

Новый атрибут lang указывает язык, на котором был написан твит, как определено алгоритмами обнаружения машинного языка Twitter.

На момент написания этой статьи атрибут lang и параметр language еще не появлялись, однако проверьте календарь изменений API , чтобы узнать, когда они планируют выпустить его (в настоящее время просто указывает "2013").

Обновление от 30.03.2013:

Атрибут lang был добавлен в Streaming API 26 марта 2013 г. Кроме того, он также былсделано доступным в REST API 6 марта 2013 г.

1 голос
/ 09 июля 2013

Для использования в Twitter Streaming API, язык теперь является параметром запроса:

https://dev.twitter.com/docs/streaming-apis/parameters#language

Таким образом, для английского языка вы добавили бы 'language = en' в строку параметров вашего запроса.

0 голосов
/ 29 марта 2013

Твиттер только что закончил !!cf Calendar API:

https://dev.twitter.com/calendar

26 марта 2013 г. Параметр lang attribute & language появляется при потоковой передаче Сообщения блога Streaming API.

Твиттер API качается !!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...