У меня есть список документов, представленных каждым пользователем. Например, Пользователь arjun001 имеет 5 документов, но они перечислены в 2 разных столбцах. И они могут быть повторены.
Например,
try:
from StringIO import StringIO
except ImportError:
from io import StringIO
myst="""
arjun001 /doc/Repo/a/Documents/PanCard.pdf /doc/app/b/Documents/approval.png
arjun001 /doc/Repo/a/Documents/PanCard.pdf /doc/app/b/Documents/download.png
arjun001 /doc/Repo/a/Documents/Occuation.pdf /doc/app/b/Documents/Income.jpg
sandip.123 /doc/Repo/a/Documents/PanCard.pdf /doc/app/b/Documents/Domicile.jpg
sandip.123 /doc/Repo/a/Documents/PanCard.pdf /doc/app/b/Documents/Bank.jpg
"""
u_cols=['user_id', 'document_path', 'doc_path']
myf = StringIO(myst)
import pandas as pd
df = pd.read_csv(StringIO(myst), sep=' ', names = u_cols)
Как мне найти уникальные документы для каждого пользователя? Ожидаемый результат будет выглядеть примерно так ...
user_id, documents
arjun001 /doc/Repo/a/Documents/PanCard.pdf
arjun001 /doc/app/b/Documents/approval.png
arjun001 /doc/app/b/Documents/download.png
arjun001 /doc/Repo/a/Documents/Occuation.pdf
arjun001 /doc/app/b/Documents/Income.jpg
sandip.123 /doc/Repo/a/Documents/PanCard.pdf
sandip.123 /doc/app/b/Documents/Domicile.jpg
sandip.123 /doc/app/b/Documents/Bank.jpg