удалить похожие слова в панде - PullRequest
0 голосов
/ 27 января 2019

У меня есть фрейм данных, в котором я хочу удалить вхождения «XXXX» в любой форме, так как в моих данных это вхождение встречается разными способами.Например, мой фрейм данных выглядит примерно так:

['XXXX / XXXX / 16', '{', '$', '39 .00 ','} ',' XXXX / XXXX / 2016 ','. ', 'чрезмерные', 'сборы', 'бы', 'лайк', 'спор', '.'] 'XX / XX / XXXX', 'дата', 'последний', 'оплата', ',', 'last ',' payment ',' made ',' XX / XX / XXXX '] [' Collector ',' Calls ',' Non ',' Stop ','. ',' XXXX / XXXX / 15 '' Med ', 'XXXXXXXX', '{', '$', '290.00', '}', 'XX / XX / XXXX-XX / XX / XXXX']

Желаемый вывод должен удалить всевхождение "XX" в любой форме, как указано выше.

Код, который я здесь использовал,

stop =  ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])

Приведенный выше код просто удаляет вхождение "XXXX:из фрейма данных pandas, но как вы должны удалить остальные вхождения XXXX, которые находятся в разных формах, как указано выше

1 Ответ

0 голосов
/ 27 января 2019

Похоже, вы ищете регулярные выражения.Если я правильно понимаю вашу проблему, этот вопрос очень сильно связан с вашим вопросом.

  1. Создайте регулярное выражение
  2. Примените df.column_name.str.match кdataframe.Это создаст кадр данных, содержащий True и False для каждой строки.
  3. Фильтрация кадра данных на основе сопоставления, выполненного на предыдущем шаге.

Посмотрите на это конкретный ответ, чтобы увидеть соответствующий код.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...