Как объединить вывод Regex Findall в Pandas - PullRequest
1 голос
/ 19 февраля 2020

Я изучаю регулярное выражение с pandas в блокноте Jupyter. Моя цель - извлечь housenumberadditions из адресной строки, используя набор шаблонов регулярных выражений.

Я строю на этом посте: https://gist.github.com/christiaanwesterbeek/c574beaf73adcfd74997, и я использую это для ввода из .csv :

Afleveradres
Dorpstraat 2
Dorpstr. 2
Dorpstraat 2
Laan 1933 2
18 Septemberplein 12
Kerkstraat 42-f3
Kerk straat 2b
42nd street, 1337a
1e Constantijn Huigensstraat 9b
Maas-Waalweg 15
De Dompelaar 1 B
Kümmersbrucker Straße 2
Friedrichstädter Straße 42-46
Höhenstraße 5A  
Saturnusstraat 60-75
Saturnusstraat 60 - 75
Plein \'40-\'45 10
Plein 1945 1
Steenkade t/o 56
Steenkade a/b Twee Gezusters
1, rue de l\'eglise
Herestraat 49 BOX1043
Maas-Waalweg 15 15

Моя цель - извлечь названия улиц, номера домов и условия проживания.

Пока я в основном использую:

# get data
file_base_name = 'examples'
dfa = pd.read_csv(''+file_base_name+'.csv', sep=';')

#get number
dfa['num'] = dfa['Afleveradres'].str.extract(r"([,\s]+\d+)\s*")
dfa['num'] = dfa['num'].str.strip()

# split leftover values into street & addition
dfa['tmp']=dfa.Afleveradres.str.replace(r"([,\s]+\d+)\s*", ';')

# new data frame with split value columns 
new = dfa["tmp"].str.split(";", n = 1, expand = True) 
# making separate first name column from new data frame 
dfa["str"]= new[0] 

# making separate last name column from new data frame 
dfa["add"]= new[1] 
dfa.drop(['tmp'], axis=1, inplace=True)


, что приводит к: список номеров, номеров и дополнений :

;Afleveradres;str;add;num
0;Dorpstraat 2;Dorpstraat;;2
1;Dorpstr. 2;Dorpstr.;;2
2;Dorpstraat 2;Dorpstraat;;2
3;Laan 1933 2;Laan;2;1933
4;18 Septemberplein 12;18 Septemberplein;;12
5;Kerkstraat 42-f3;Kerkstraat;-f3;42
6;Kerk straat 2b;Kerk straat;b;2
7;42nd street, 1337a;42nd street;a;, 1337
8;1e Constantijn Huigensstraat 9b;1e Constantijn Huigensstraat;b;9
9;Maas-Waalweg 15;Maas-Waalweg;;15
10;De Dompelaar 1 B;De Dompelaar;B;1

Пока все хорошо, пока. Далее я хотел бы исправить для диапазонов номеров, таких как '42 -46 'и '60 - 65'.

A re.findall возвращает ожидаемые значения:

import re

def rem(str):
    pattern = r'[,@\'?\.$%_]'
    if re.match(pattern, str):
        tmp = 'Y'
    else:
        tmp = 'N'
    return tmp

def extract_numrange(row):
    r = ''+row['Afleveradres']
    num_range1 = re.findall(r'([,\s]+\d+\-+\d+)\s*|([,\s]+\d+\s+\-+\s+\d+)\s*',r)

    return num_range1
    # return rem(num_range1)

dfa['excep'] = dfa.apply(extract_numrange, axis=1)
dfa

output re.findall

15  Friedrichstädter Straße 42-46   Friedrichstädter Straße -46 42  [( 42-46, )]
16  Höhenstraße 5A  Höhenstraße A   5   []
17  Saturnusstraat 60-75    Saturnusstraat  -75 60  [( 60-75, )]
18  Saturnusstraat 60 - 75  Saturnusstraat  -;  60  [(, 60 - 75)]

Но как мне очистить этот вывод из [(42-46,)] и [(, 60 - 75)] в нечто вроде 42-46 и 60 - 75 в новой колонке?

Или есть более подходящие варианты для моего вопроса?

1 Ответ

0 голосов
/ 19 февраля 2020

Проблема в том, что есть две группы захвата. Вам необходимо изменить шаблон, чтобы использовать только одну группу захвата, или вообще избавиться от группы.

Ваш шаблон относится к типу (Group1)\s*|(Group2)\s*. Как видите, все, что вам нужно, это перегруппировать детали в (Group1|Group2)\s*.

. Итак, самое быстрое исправление это

([,\s]+\d+\-+\d+|[,\s]+\d+\s+\-+\s+\d+)\s*

См. regex demo .

Однако, я думаю, вам не нужны пробелы на обоих концах. Затем переместите те шаблоны, которые вы не хотите захватывать, из группировки:

[,\s]+(\d+\-+\d+|\d+\s+\-+\s+\d+)\s*
^^^^^^

См. это демонстрационное выражение regex .

Возможно, вы можете уменьшить это еще больше на

[,\s](\d+(?:-+|\s+-+\s+)\d+)

См. это демонстрационное регулярное выражение , (?:-+|\s+-+\s+) - это группа без захвата, которая не приведет к дополнительному элементу кортежа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...