Как удалить POS-теги из файла CSV - PullRequest
0 голосов
/ 17 марта 2019

Я выполняю некоторую обработку естественного языка, в которой я сгенерировал следующий вывод:

connect^NN - appears^VBZ cant^JJ lose^JJ make^VBP pretty^JJ pro^JJ make^JJ compared^VBN made^VBD tracked^VBD navigate^JJ click^JJ kept^VBD trail^JJ downloaded^VBD
gps^NN - hope^VBP happy^JJ appears^VBZ entire^JJ reading^VBG good^VB start^VBP eg^JJ negative^JJ crashed^VBD happens^VBZ save^JJ expect^VBP certain^JJ drain^VBP
app^NN - nt^VB go^VBP see^VB relate^JJ pervious^JJ

Мне нужно написать скрипт, чтобы избавиться от всех POS-тегов, таких как ^ NN, ^ VBZ, ^ JJ, ^ VBP и, следовательно, получить следующий результат:

 connect - appears cant lose make pretty pro make compared made tracked navigate click kept trail downloaded
  app - nt go see relate pervious

1 Ответ

2 голосов
/ 17 марта 2019

Предполагая, что каждый POS-тег начинается с символа '^' и заканчивается символом пробела, вы можете использовать следующее регулярное выражение:

import re
re.sub('\^.*?\s', ' ', string)

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...