У меня есть набор данных с 2,6 миллионами строк, в котором у меня есть один столбец с именем msgText
, который содержит письменные сообщения.
Теперь я хочу отфильтровать все сообщения, которые не содержат букв.Для этого я нашел следующий код:
dataset = dataset[dataset['msgText'].astype(str).str.contains('[A-Za-z]')]
Однако через 16 часов код все еще работает.
Кроме того, на основе Есть ли в Python метод «содержит» подстроку для строки? Я думал о создании списка длиной 26, который содержит все буквы в алфавите, а затем проверял, является ли каждыйклетка содержит это письмо.Но это тоже не кажется эффективным.
Поэтому мне интересно, есть ли более быстрый способ определить, содержит ли клетка буквы.
РЕДАКТИРОВАТЬ: приведенный выше код работает очень хорошо.По-видимому, в моем (медленном) коде было: dataset['msgText'] = dataset[dataset['msgText'].astype(str).str.contains('[A-Za-z]')]