Python noob здесь.
Я работаю с большим набором данных, который включает столбец с неструктурированными строками.Мне нужно разработать способ создания списка, который включает в себя все названия пригородов в Австралии (я могу легко найти этот источник).Затем мне нужна программа, которая анализирует строку и, когда последовательность соответствует записи в списке, сохраняет подстроку в новый столбец.Набор данных был добавлен из нескольких источников, поэтому у строк нет согласованной структуры.
Например, строки выглядят так:
GIBSON AVE PADSTOW NSW 2211
SYDNEY ROAD COBURG VIC 3058
DUNLOP ST, ROSELANDS
FOREST RD HURSTVILLE NSW 2220
UNKNOWN
JOSEPHINE CRES CHERRYBROOK NSW 2126
Буду очень признателен, если кто-нибудьесть любой пример кода, который они могут поделиться со мной, или если вы можете указать мне правильное направление для наиболее подходящего инструмента / метода для использования.
В этом примере ожидаемый результат будет выглядеть следующим образом:
'Padstow'
'Кобург'
'Roselands'
'Hurstville'
''
'Cherrybrook'
РЕДАКТИРОВАТЬ:
Будет ли этот код работать?
import pandas as pd
import numpy as np
suburb_list = np.genfromtxt('filepath/nsw.csv',
delimiter=',', dtype=str)
top_row = suburb_list[:].tolist()
dataset = pd.read_csv(‘filepath/dataset.csv')
def get_suburb(dataset.address):
for s in suburb_list:
if s in address.lower()
return s