Первый пост.У меня есть текст, где много текста в случае заголовка свернут без пробелов.Я пытаюсь: а) сохранить полный текст (не теряя слов), б) использовать логику для разделения «A», как в «A Way Forward», в) избегать разделения акронимов, таких как EPA, DOJ, ect (которыйуже в полной кепке).
Мой код регулярного выражения довольно близок, но в начале или конце слов он оставляет «A»:
f = "TheCuriousIncidentOfAManInAWhiteHouseAt1600PennsylvaniaAveAndTheEPA" re.sub (r ")([AZ] [az] | [AZ] [AZ] | \ d +) ", r" \ 1 ", f) .split ()
вывод:
[«The», «Curious», «Incident», «Of», «AMan», «In», «AWhite», «House», «At», «1600», «Pennsylvania», «Ave», «And»',' The ',' EPA ']
Проблема выводится как «AMan», «AWhite» и т. Д.
Должно быть:
['The', 'Curious', 'Incident', 'Of', 'A', Man ', ' In ', ' A ', White', «Дом», «В», «1600», «Пенсильвания», «Ave», «И», «The», «EPA»]
Спасибо