Используя библиотеку pandas в Python, в моем коде есть устройство, которое выглядит так:
BadData = len(df[df.A1.str.contains('A|T|C|G')==False])
Здесь я пытаюсь подсчитать количество записей в столбце A1
кадра данных df
, которые не содержат никакой комбинации букв A, T, C, и Г.
Эти выражения должны учитываться как BadData
:
Но эти выражения не должны:
Мой вопрос : как я могу использовать символы регулярного выражения для включения таких записей, как " A pple" или " G olfing" в BadData
?
Я мог бы связать воедино такие условия:
BadData = len(df[(df.A1.str.contains('A|T|C|G')==False) & (df.A1.str.contains('0|1|2|3')==TRUE)])
Но здесь я сталкиваюсь с трудностью: я должен определить каждого персонажа, который нарушает условие? Это кажется неуклюжим, и я уверен, что есть более элегантный способ.