Я занимаюсь анализом настроений на данных в твиттере и борюсь с кодировкой Unicode для смайликов в твитах. Проблема в том, что я не могу идентифицировать смайлики. Когда я печатаю текст с помощью смайликов (закодированных в Unicode в таком формате: <U+653C>
и т. Д.) На консоль, я получаю китайские знаки вместо смайлика, который я ожидаю от твита.
С помощью функции 'validUTF8 (x)' я проверил, правильно ли текст кодируется в кодировке UTF8, и он возвращает TRUE, что указывает на то, что текст действительно кодирован в кодировке UTF8.
Пример твита, загружаемого в R (с простой очисткой данных), выглядит следующим образом:
" <U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+613C><U+3E39><U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+623C><U+3E30> begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "
Вот как этот код отображается в консоли в R:
[1] "攼㹤愼㸰戼㹣攼㹤戼㸷愼㸹攼㹤愼㸰戼㹣攼㹤戼㸷戼㸰 begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "
и ссылка на конкретный твит здесь . Кстати: я загружаю свои данные из твиттера в R с помощью пакета rtweets и функции search_tweets
и работаю в Windows 10.
Я хочу иметь возможность идентифицировать смайлик путем сопоставления Юникода с базой данных Юникода , чтобы использовать смайлики в моем анализе настроений. Кто-нибудь может мне помочь с этим?