Я использую Twint для извлечения твитов, полученных в результате определенного поиска (что дает мне около 100 тыс. Твитов).Проблема в том, что Twint выводит содержимое твита с заголовком эмодзи, а не с определенным юникодом.Это один из примеров:
@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart> <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo
Это плохо, потому что я хочу токенизировать твит для дальнейшего анализа (например, использование смайликов), и традиционный токенайзер твитов (например, nltk TweetTokenizer) не будет корректно токенизироваться.
Есть ли у вас какие-либо предложения о том, как я могу преобразовать эти заголовки смайликов в соответствующие им Unicode (я могу извлечь заголовки только с помощью re
)?
Где я могу получитьданные, которые emojepedia использует?Или где я могу скачать список всех смайликов в твиттере, содержащих их юникод-код и заголовки?