Щебетать смайлики в юникоде в р на windows - PullRequest
0 голосов
/ 26 июня 2018

Я занимаюсь анализом настроений на данных в твиттере и борюсь с кодировкой Unicode для смайликов в твитах. Проблема в том, что я не могу идентифицировать смайлики. Когда я печатаю текст с помощью смайликов (закодированных в Unicode в таком формате: <U+653C> и т. Д.) На консоль, я получаю китайские знаки вместо смайлика, который я ожидаю от твита. С помощью функции 'validUTF8 (x)' я проверил, правильно ли текст кодируется в кодировке UTF8, и он возвращает TRUE, что указывает на то, что текст действительно кодирован в кодировке UTF8.

Пример твита, загружаемого в R (с простой очисткой данных), выглядит следующим образом:

" <U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+613C><U+3E39><U+653C><U+3E64><U+613C><U+3E30><U+623C><U+3E63><U+653C><U+3E64><U+623C><U+3E37><U+623C><U+3E30> begint op de bank tijdens de laatste groepswedstrijd van denemarken uur den fra worldcup feyenoord "

Вот как этот код отображается в консоли в R:

[1] "攼㹤愼㸰戼㹣攼㹤戼㸷愼㸹攼㹤愼㸰戼㹣攼㹤戼㸷戼㸰   begint op de bank tijdens de laatste groepswedstrijd van denemarken        uur  den   fra   worldcup feyenoord "

и ссылка на конкретный твит здесь . Кстати: я загружаю свои данные из твиттера в R с помощью пакета rtweets и функции search_tweets и работаю в Windows 10.

Я хочу иметь возможность идентифицировать смайлик путем сопоставления Юникода с базой данных Юникода , чтобы использовать смайлики в моем анализе настроений. Кто-нибудь может мне помочь с этим?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...