У меня есть датафрейм pandas, который содержит обзорные тексты.После предварительной обработки текста я получил список строк в каждой строке.Теперь я хочу перебрать каждую строку этих списков строк, чтобы проверить, есть ли каждая строка на английском или нет.Я хочу подсчитать вхождения неанглийских слов, чтобы создать еще один столбец «Вхождения».
Для проверки английского языка я буду использовать библиотеку pyenchant.
Что-то похожее на код ниже
review_text sentiment error_related
0 [simple, effective, way, new, word, kid] 1 NaN
1 [fh, fcfatgv] 1 NaN
2 [son, loved, easy, even, though, son, first, g... 1 NaN
english_dict = enchant.Dict("en_US")
def enlgish_counter(df, df_text_column):
number_of_non_english_words = []
for review in df_text_column:
for word in review:
a=0
if english_dict.check(i)==False:
a=a+1
non_english_words.append(a)