проблема с регулярным выражением токенизатора - PullRequest
0 голосов
/ 11 января 2019

У меня есть такой фрейм данных с текстом:

suj rawText
0   01  PART1\ntext... PART2\ntext...
1   02  PART1\ntext... PART2\ntext...
2   03  PART1\ntext... PART2\ntext...
3   04  PART1\ntext... PART2\ntext...
4   05  PART1\ntext... PART2\ntext...

и я хочу разделить «rawText» на три части с помощью регулярных выражений «PART1», «PART2» и «PART3». Итак, я использую:

extract = RegexpTokenizer('(PART.)', gaps=True, discard_empty=True)
df['result']=df.apply(lambda row : extract.tokenize(row['rawText']), axis=1)

но результат не удаляет регулярное выражение, как ожидалось ...

suj rawText result
0   01  PART1\ntext...  [PART1, \ntext...
1   02  PART1\ntext...  [PART1, \ntext
2   03  PART1\ntext...  [PART1, \ntext...
3   04  PART1\ntext...  [PART1, \ntext...
4   05  PART1\ntext...  [PART1, \ntext...

Есть идеи?

...