У меня есть фрейм данных df_android['App']
, который включает английские и неанглийские имена. Я хотел бы избавиться от тех, кто не по-английски. Идея состоит в том, чтобы использовать систему чисел, которые представляют буквы. Числа выше 127 не являются английскими знаками.
Я пытался реализовать это в лямбде, но я не знаю, как разбить каждое имя в df_android['App']
на буквы:
for app in df_android['App']:
for letter in app:
letter = ord(letter)
df_android['Lang'] = df_android['App'].apply(lambda x: 'English' if letter < 127 else 'non-English')
Как я могу определить, какое письмо является английским / неанглийским, и применить эти знания в новом столбце?
Пример: