У меня есть следующая строка:
27223525
West Food Group B.V.9
52608670
Westcon
Group European Operations Netherlands Branch
30221053
Westland Infra Netbeheer B.V.
27176688
Wetransfer 85 B.V.
34380998
WETRAVEL B.V.
70669783
Эта строка содержит много символов новой строки, я хотел явно игнорировать их, а также все многозначные числа с 6 или более числами.Я придумал следующее выражение регулярного выражения:
[^\n\d{6,}].+
Это почти приводит меня туда, поскольку возвращает все названия компаний, однако в тех случаях, когда само название компании содержит символ новой строки, они возвращаются как два разныхназвания компаний.Например, Westcon
является совпадением, а Group European Operations Netherlands Branch
также совпадает.Я хотел бы настроить приведенное выше выражение, чтобы убедиться, что окончательное совпадение равно Westcon European Operations Netherlands Branch
.Какие понятия регулярных выражений я должен использовать для достижения этой цели?Спасибо.
РЕДАКТИРОВАТЬ Я попробовал следующее на основе комментария ниже, но получил неправильный результат
text = 'West Food Group B.V.9\n \n52608670\n \nWestcon\n \nGroup European Operations Netherlands Branch\n \n30221053\n \nWestland Infra Netbeheer B.V.\n \n27176688\n \nWetransfer 85 B.V.\n \n34380998\n \nWETRAVEL B.V.\n \n70669783\n \nWeWork Companies (International) B.V.\n \n61501220\n \nWeWork Netherlands B.V.\n \n61505439\n \nWexford Finance B.V.\n \n27124941\n \nWFC\n-\nFood Safety B.V.\n \n11069471\n \nWhale Cloud Technology Netherlands B.V.\n \n63774801\n \nWHILL Europe B.V.\n \n72465700\n \nWhirlpool Nederland B.V.\n \n20042061\n \nWhitaker\n-\nTaylor Netherlands B.V.\n \n66255163\n \nWhite Oak B.V.\n'
re.findall(r'[^\n\d{6,}](?:(?:[a-z\s.]+(\n[a-z\s.])*)|.+)',text)