Я новичок в python, и я пытаюсь написать конвейер для захвата всех идентификаторов, которые имеют "R" и "да" в одной строке.
У меня есть несколько файлов CSV, которые содержат следующий шаблон:
CSVFile1
"ID1","R","","","","","yes"
"ID2","S","","","","","yes"
CSVFile2
"ID1","animal","R","","","","","","","","yes"
CSVFile3
"ID1","animal","fish","S","","","","","","","yes"
"ID2","animal","dog","R","","","","","","","yes"
Используя регулярное выражение, я могу захватить все строки с помощью R и да:
input = open(sys.argv[1], 'r')
for line in input:
if re.match(r'^(?=.*(\bR\b)+)(?=.*(\byes\b)+)', line) is not None:
print (line)
Но если я преобразую его в pandas фрейм данных, есть ли способ, которым я мог бы захватить все строки, которые имеют R и да, без необходимости каждый раз указывать имена столбцов, как не все файлы? имеют одинаковое количество столбцов?