Как получить цифры непосредственно перед ключевыми словами? - PullRequest
1 голос
/ 22 февраля 2020

У меня есть следующий код:

result = dict()
for i in ['ABC', 'DEF']:
    result[i] = re.findall('{0}(.*?)(\d+\.*\d*-*\d+\.*\d*.*?)'.format(i), 'ABC costs 40000-50000 dollars; the price of car DEF is 45600-80000, HIJ only needs 30000USD')

Возвращает:

{'ABC': [(' costs ', '40000-50000')], 'DEF': [(' is ', '45600-80000')]}

Однако я хочу следующее:

{'ABC': ['40000-50000'], 'DEF': ['45600-80000'], 'OTHERS' : ['30000']}

Обратите внимание, что ключевые слова не равные ABC и DEF считаются OTHERS. Как решить проблему?

1 Ответ

0 голосов
/ 22 февраля 2020

При таком подходе верхняя строка находит все, чтобы получить все трехбуквенные сокращения вместе с цифрами c значений / диапазонов. Затем он использует понимание списка в сочетании с zip и dict для создания нужного словаря.

inp = "ABC costs 40000-50000 dollars; the price of car DEF is 45600-80000, HIJ only needs 30000USD"
matches = re.findall(r'\b[A-Z]{3}\b|\d+(?:-\d+)?', inp)
print(matches)
map_out = dict(zip([matches[i] for i in range(0, len(matches), 2)],
                   [matches[i] for i in range(1, len(matches), 2)]))
print(map_out)

Это печатает:

['ABC', '40000-50000', 'DEF', '45600-80000', 'HIJ', '30000']
{'HIJ': '30000', 'ABC': '40000-50000', 'DEF': '45600-80000'}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...