У меня есть текст, созданный другой системой. Он объединил несколько слов в то, что, как я полагаю, было своего рода побочным продуктом переноса слов. Итак, что-то простое, например, «собака», объединяется в «thedog».
Я проверил строки ascii и unicode, чтобы увидеть, что там не было невидимого символа, но его не было. Сложная проблема заключается в том, что это медицинский текст, а корпус для проверки не доступен. Итак, реальный пример - «... тест для исключения атипичной пневмонии против пневмонии» заканчивается как «... против пневмонии».
У кого-нибудь есть предложение найти и отделить их?