Question

Я работаю с Pandas и numpy. Для следующего фрейма данных давайте назовем его «data», для значений Borough с данными ['Borough'] == 'Unspecified', мне нужно использовать почтовый индекс в поле Incident Zip слева от него, чтобы выполнить поиск в столбце Incident Zip для соответствующего почтового индекса и района. Как только это будет найдено, «Unspecified» должно быть заменено названием района. Вот ссылка для тестирования: https://colab.research.google.com/drive/1PgPbS7KxOrNfok3jtKoC55vXAXzK2E_N#scrollTo=poYboz-jhRCN Нажмите Runtime -> Runall

Created Date               Complaint Type   Incident Zip    Borough
0   09/14/2017 04:40:33 PM  New Tree Request    11374       QUEENS
1   03/18/2017 10:09:57 AM  General Construc    11420       QUEENS
2   03/29/2017 12:38:28 PM  General Construc    11230       Unspecified
3   06/05/2017 12:47:55 PM  New Tree Request    10028       Unspecified
4   06/15/2017 11:56:36 AM  Dead/Dying Tree     10467       BRONX
5   06/19/2017 10:30:46 AM  New Tree Request    11230       MANHATTAN
6   06/29/2017 09:25:59 AM  New Tree Request    10028       MANHATTAN
7   07/01/2017 12:23:20 PM  Damaged Tree        10467       BRONX
8   07/01/2017 11:47:03 AM  Damaged Tree        10467       BRONX
9   07/10/2017 10:27:37 AM  General Construc    11385       QUEENS
10  07/13/2017 09:20:53 PM  General Construc    11385       QUEENS

anky_91 · Answer 1 · 18 января 2019

В качестве альтернативы:

df.Borough.replace('Unspecified',np.nan,inplace=True)
df.Borough = df.sort_values(by='Incident Zip').groupby('Incident Zip')['Borough'].apply(lambda x : x.ffill().bfill())
>>df



             Created Date   Complaint Type   Incident Zip    Borough
0   09/14/2017 04:40:33 PM  New Tree Request         11374     QUEENS
1   03/18/2017 10:09:57 AM  General Construc         11420     QUEENS
2   03/29/2017 12:38:28 PM  General Construc         11230  MANHATTAN
3      2017-05-06 12:47:55  New Tree Request         10028  MANHATTAN
4   06/15/2017 11:56:36 AM   Dead/Dying Tree         10467      BRONX
5   06/19/2017 10:30:46 AM  New Tree Request         11230  MANHATTAN
6   06/29/2017 09:25:59 AM  New Tree Request         10028  MANHATTAN
7      2017-01-07 12:23:20      Damaged Tree         10467      BRONX
8      2017-01-07 11:47:03      Damaged Tree         10467      BRONX
9      2017-10-07 10:27:37  General Construc         11385     QUEENS
10  07/13/2017 09:20:53 PM  General Construc         11385     QUEENS

cs95 · Answer 2 · 18 января 2019

IIUC, вы хотите использовать другие значения в DataFrame для заполнения пропущенных значений.Вы можете сделать это с помощью map.

. Сначала сгенерируйте почтовые индексы сопоставления серий в городском округе.

mapping = (df.query('Borough != "Unspecified"')
             .drop_duplicates('Incident Zip')
             .set_index('Incident Zip')
             .Borough)
mapping

Incident Zip
11374       QUEENS
11420       QUEENS
10467        BRONX
11230    MANHATTAN
10028    MANHATTAN
11385       QUEENS
Name: Borough, dtype: object

Теперь передайте это map и заполните несопоставленные значения как "Не указано "с использованием fillna.

df['Borough'] = df['Incident Zip'].map(mapping).fillna('Unspecified')

df
             Created Date    Complaint Type  Incident Zip    Borough
0  09/14/2017 04:40:33 PM  New Tree Request         11374     QUEENS
1  03/18/2017 10:09:57 AM  General Construc         11420     QUEENS
2  03/29/2017 12:38:28 PM  General Construc         11230  MANHATTAN
3  06/05/2017 12:47:55 PM  New Tree Request         10028  MANHATTAN
4  06/15/2017 11:56:36 AM   Dead/Dying Tree         10467      BRONX
5  06/19/2017 10:30:46 AM  New Tree Request         11230  MANHATTAN
6  06/29/2017 09:25:59 AM  New Tree Request         10028  MANHATTAN
7  07/01/2017 12:23:20 PM      Damaged Tree         10467      BRONX
8  07/01/2017 11:47:03 AM      Damaged Tree         10467      BRONX
9  07/10/2017 10:27:37 AM  General Construc         11385     QUEENS

Заполните пропущенные значения на основе другого столбца в панде DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Заполните пропущенные значения на основе другого столбца в панде DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов