У меня есть набор данных текстов в твиттере, который представляет собой смесь английского, арабского и фарси. Я хотел создать облако слов из этого. К сожалению, мое облако слов показывает пустые квадраты для арабских и персидских слов на фотографии. Мне довелось услышать о трех способах решения этой проблемы:
Использование разных кодировок: я пробовал "UTF-8", "UTF-16", "UTF-32" и "ISO-8859-1", которые не устранили проблему
Использование arabic_reshaper: не работает
Использование шрифта, который одновременно поддерживает три языка, таких как шрифт «Arial»: при попытке изменить шрифт на Arial в облаке слов я получаю следующую ошибку:
ввод
wordcloud = WordCloud(font_path = 'arial',stopwords = stopwords, background_color = "white", max_font_size = 50, max_words = 100).generate(reshaped_text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
выход
cannot open resource
Этот код хорошо работает в Anaconda, но не в Google-Colab. Единственное, что нужно решить, это , какой путь я должен ввести для font_path в Google-Colab