Как я могу исключить MS Word, созданные Janky символов в RegEx с PHP - PullRequest
0 голосов
/ 30 января 2012

Я читаю документ MS Word с $ text = fread ($ filename, $ filesize);

, затем, когда я отображаю $ text, у него есть некоторые символы, которые браузер не может отображать должным образом, и выводит некоторые сломанные символы.Я пытаюсь очистить их с помощью следующего регулярного выражения:

preg_replace('/[^\w]/','',$text);, но оно работает не так, как я хочу.

Кто-нибудь может помочь, пожалуйста?

1 Ответ

0 голосов
/ 30 января 2012

Как уже упоминалось в комментариях, вы должны использовать инструмент, который преобразует .doc-файл в нечто более удобное для использования, например обычный / текстовый.

В противном случае вы можете попробовать следующее регулярное выражение при выводе каждой строки, которое содержит только цифры, слова и пробелы в строке:

preg_replace("/^([^\d\w\s])$/i", "", $text);
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...