У меня есть длинная строка в php, состоящая из разных параграфов, каждый из которых имеет разные предложения (это в значительной степени небольшой документ).Я хочу разбить все это на слова, удалив любые символы / символы, которые не имеют отношения.Например, удалите запятые, пробелы, новые строки, точки остановки, восклицательные знаки и все, что может оказаться неуместным, чтобы в итоге были только слова.
Существует ли простой способ сделать это, например, за один раз?используя регулярное выражение и функцию preg_split
, или я должен использовать функцию explode
несколько раз: например, сначала получить все предложения (удалив «.», «!» и т. д.).Затем получите слова, удалив ',', пробелы и т. Д. И т. Д.
Я не хотел бы использовать функцию explode
для всех возможных символов, которые не имеют значения, поскольку это отнимает много времени, и я могу случайно пропустить некоторые извсе эти возможные символы.
Я хотел бы найти более автоматический способ.Я думаю, что хорошо определенное регулярное выражение может сделать эту работу, но опять же мне нужно будет указать все возможные символы, а также я не знаю, как писать регулярные выражения в php.
Так что вы можете мне предложить?