Поиск новых / существующих клиентов на базе данных - PullRequest
0 голосов
/ 07 декабря 2018

Мне нужно создать категорический столбец, в котором указано, был ли код учетной записи клиента введен в первый раз, т. Е. «Новый» или ранее, т. Е. «Существующий».

Необходимо учитывать только первое вхождениекак «Новый», остальные вхождения, независимо от разрыва в вхождениях, должны рассматриваться как «Существующие».

Я попытался просмотреть список уникальных кодов учетных записей, в которых я бы отфильтровал кадр данных.для этого конкретного кода счета и найдите минимальную дату, которая будет храниться в отдельной таблице.Затем, посмотрев на эту таблицу, я бы ввел тэг New / Existing в категориальный столбец.Не удалось выполнить его должным образом, хотя.Есть ли простой способ сделать это?

Я приложил образец файла ниже:

Образец данных

Также у данных есть некоторые не UTF-8 кодированных символов, которые я не смог обработать.

1 Ответ

0 голосов
/ 07 декабря 2018

Попробуйте:

df.assign(Occurence=np.where(~df['Account Code'].duplicated(),'New','Existing'))

Вывод:

  Created Date   Account Code Occurence
0     7-Sep-13       CL000247       New
1     7-Sep-13       CL000012       New
2     7-Sep-13       CL000875       New
3     7-Sep-13       CL000084       New
4     7-Sep-13       CL000186       New
5     7-Sep-13       CL000167       New
6     7-Sep-13       CL000167  Existing
7     7-Sep-13       CL000215       New
8    12-Sep-13  Wan2013001419       New
9    12-Sep-13       CL000097       New
...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...