У меня есть такой фрейм данных с текстом:
suj rawText
0 01 PART1\ntext... PART2\ntext...
1 02 PART1\ntext... PART2\ntext...
2 03 PART1\ntext... PART2\ntext...
3 04 PART1\ntext... PART2\ntext...
4 05 PART1\ntext... PART2\ntext...
и я хочу разделить «rawText» на три части с помощью регулярных выражений «PART1», «PART2» и «PART3».
Итак, я использую:
extract = RegexpTokenizer('(PART.)', gaps=True, discard_empty=True)
df['result']=df.apply(lambda row : extract.tokenize(row['rawText']), axis=1)
но результат не удаляет регулярное выражение, как ожидалось ...
suj rawText result
0 01 PART1\ntext... [PART1, \ntext...
1 02 PART1\ntext... [PART1, \ntext
2 03 PART1\ntext... [PART1, \ntext...
3 04 PART1\ntext... [PART1, \ntext...
4 05 PART1\ntext... [PART1, \ntext...
Есть идеи?