Игнорировать '️' при написании токенов - PullRequest
0 голосов
/ 13 ноября 2018

Я создаю твиттер-сканер для анализа настроений.Я следую этому уроку https://marcobonzanini.com/2015/03/23/mining-twitter-data-with-python-part-4-rugby-and-term-co-occurrences/.

В этом уроке (часть 3) Марко учит, как игнорировать некоторые термины, используя переменную остановки в своем алгоритме.Однако, когда я начинаю собирать твиты и пытаюсь сопоставить матрицу совместного вхождения - которая содержит число раз, когда термин x был замечен в том же твите, что и термин y - tweepy собирает этот термин: '️'.Я не знаю, что это такое в Юникоде и как я могу игнорировать.

Я пробовал апостроф, одинарную цитату справа / слева, и ни одна из них, похоже, не работает.

Есть мысли?

...