Конвертировать титры смайликов в юникод - PullRequest
0 голосов
/ 06 июня 2018

Я использую Twint для извлечения твитов, полученных в результате определенного поиска (что дает мне около 100 тыс. Твитов).Проблема в том, что Twint выводит содержимое твита с заголовком эмодзи, а не с определенным юникодом.Это один из примеров:

@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart>  <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo

Это плохо, потому что я хочу токенизировать твит для дальнейшего анализа (например, использование смайликов), и традиционный токенайзер твитов (например, nltk TweetTokenizer) не будет корректно токенизироваться.

Есть ли у вас какие-либо предложения о том, как я могу преобразовать эти заголовки смайликов в соответствующие им Unicode (я могу извлечь заголовки только с помощью re)?

Где я могу получитьданные, которые emojepedia использует?Или где я могу скачать список всех смайликов в твиттере, содержащих их юникод-код и заголовки?

Ответы [ 2 ]

0 голосов
/ 17 июня 2018

Вот пакет python, который может решить вашу проблему

emotlib - библиотека Python emoji + emoticon (<ゝ ω ・) ☆ ?‍??‍? </a>

Прост в использовании и поддерживает 2.7, 3.6 и поддержку Emoji 11.0.

Но вам все равно нужно сначала обработать текст, я думаю.

0 голосов
/ 06 июня 2018

Я нашел эти файлы (с помощью @Philip Couling).Это - начало, чтобы решить проблему, хотя некоторая дополнительная обработка будет необходима.

...