У меня есть столбец домашних адресов, который необходимо «очистить» и предварительно обработать на основе нескольких шаблонов. Например:
Я сделал следующее:
import pandas as pd
import re
df = pd.read_csv("SampleData.csv")
df['Address'] = (df['Address'].str.split()).str.join(' ')
df.head(10)
Индекс 1, показывает адрес "9 (4f7) Adam Road
". Сосредоточение только на "(4f7)
"
Шаблон, который он предоставляет, - это пробел, скобки, целое число, символ, скобки, пробел.
Выход этого адреса должен быть "9/4 Adam Road
". Следовательно, мне нужно тщательно выбрать первое целое число из скобок и поместить его рядом с первым встречным целым числом в адресной строке (с косой чертой).
Второй пример: "1 (Flat 12) Subang Heights, Slateford,
"
Вывод второго примера должен быть: "1/12 Subang Heights, Slateford
". Здесь я должен удалить слово Flat и поместить целое число 12 рядом с первым встречающимся целым числом. Есть запятые и символы, которые также необходимо удалить.
Что было бы лучшим предложением для решения этой проблемы? Должны ли это быть регулярные выражения или любые другие методы Python?
Может ли кто-нибудь с опытом работы с такими шаблонами помочь мне?
ОБНОВЛЕНИЕ 1 (Используемые данные):
18/8 Andy Pitt Drive
9 (4f7) Adam Road
2nd Floor, 12 China Town
1 Kuala Lumpur Park
23 KingsRoad North
81 (5F2) Prince Street
45/2 Brian's Court
1/2 Ships Corner
9/1 Eagle's Eye
1 (Flat 12) Subang Heights, Slateford,