Удалить повторяющиеся слова в строках в столбце в каждой строке во фрейме данных - PullRequest
1 голос
/ 10 марта 2019

Я пытаюсь удалить повторяющиеся слова в строках в моем фрейме данных для каждой строки.

Скажем, мой фрейм данных выглядит следующим образом:

In:
Yes Yes Absolutely
No No Nope   
Win Win Lose



  for row in df.iterrows():
        row["Sentence"] = (list(set(row["Sentence"])))

Desired Out:
Yes Absolutely
No Nope
Win Lose

Как очистить каждую строку, чтобы удалить дублирующиеся строки.Я попробовал приведенный выше код.

Буду очень признателен за любые ссылки на любые документы или источники, если они приведут меня в правильном направлении.Спасибо.

1 Ответ

1 голос
/ 10 марта 2019

Вы можете использовать (при условии, что имя столбца равно 0):

from collections import OrderedDict
df[0].str.split().apply(lambda x: ','.join(OrderedDict.fromkeys(x).keys()))

0    Yes,Absolutely
1           No,Nope
2          Win,Lose

Обратите внимание, вы можете использовать в качестве:

df[0].str.split().apply(lambda x: ','.join(list(set(x))))

Но комплект не гарантирует заказ.

...