Я вытаскиваю статьи с определенных URL для преобразования в предложения, но текстовое тело имеет случайное поведение, исключая пробелы между предложениями, что приводит к:
Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.
Часть моего текста - это стоковые символы (AZ.GAN) и т. Д. Поэтому я не могу просто вставить пробел между всеми периодами, у которых нет соседних пробелов.
Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.
В приведенном выше примере будет уничтожена переменная символа акции.
Любопытно, если кто-нибудь знает причину этого.Я пробовал несколько HTML и DOM.Я использую Simple_DOM, чтобы захватить открытый текст.Хотя, я получаю тот же результат, если я делаю это вручную или с любым другим механизмом синтаксического анализа.