Здравствуйте, я пытаюсь найти все смайлики в загруженных твитах, используя python 2.7
Я пробовал это, используя следующий код:
import os
import codecs
import emoji
from nltk.tokenize import word_tokenize
def extract_emojis(token):
emoji_list = []
if token in emoji.UNICODE_EMOJI:
emoji_list.append(token)
return emoji_list
for tweet in os.listdir(tweets_path):
with codecs.open(tweets_path+tweet, 'r', encoding='utf-8') as input_file:
line = input_file.readline()
while line:
line = word_tokenize(line)
for token in line:
print extract_emojis(token)
line = input_file.readline()
Однако вместо этого я получаю только пустые спискииз смайликов.Если я получу следующий твит
schuld van de sossen ? SP.a: wij hebben niks gedaan ? Groen: we gaan energie VERBIEDEN!
, то вместо кода будет выведен код
[]
:
[?, ?]
Любая помощь?Спасибо!