PHP Help преобразование диакритических символов в кавычки HTML - PullRequest
0 голосов
/ 29 сентября 2010

У меня есть несколько файлов MS Word, которые клиент хочет отобразить на своем веб-сайте. Я преобразовал их в HTML с помощью «Сохранить как веб-страницу» - и да, я знаю, что это приводит к паршивому HTML, но другие методы, которые я пытался потерять, ссылаются на встроенные изображения.

По большей части я могу использовать PHP для очистки дисплея, но один элемент меня совершенно сбил с толку: все одинарные и двойные кавычки появляются как различные буквы с диакритическими знаками (акцентами), и я не могу понять, как обнаружить их и преобразовать их в правильные объекты HTML. Например: Õ (O тильда) должна быть в одинарных кавычках, Ò (O могила) должна быть в открытых двойных кавычках, Ó (O острая) должна быть в двойных кавычках. Я попробовал htmlentities, iconv и кучу других методов без удачи.

Ответы [ 3 ]

1 голос
/ 29 сентября 2010

Слово это беспорядок!Для отдельных файлов я запускаю что-то вроде этого: http://word2cleanhtml.com/

Если это будет происходить постоянно, есть целые библиотеки файлов, предназначенные для де-слово-документов Word для Интернета.Попробуйте HTML Tidy или HTML Purifier

Если вы собираетесь работать с инструментом типа WYSIWYG, и это продолжается, CKEditor автоматически удалит Word HTML мусор.Отличие CK от TinyMCE и других заключается в том, что даже если пользователь забудет выполнить «Копировать из Word», он все равно не пропустит плохие вещи.

С момента использования CK и Tidy у меня не было ни одной проблемы на сайте моей компании, несмотря на то, что ее использовали сотни пользователей с различными уровнями знаний в Интернете.До изменений это была ежедневная проблема.

0 голосов
/ 29 сентября 2010

Какая кодировка документа Word? Вы можете либо попытаться сопоставить исходную кодировку через PHP, либо изменить кодировку Word Document на что-то вроде UTF-8 и убедиться, что ваша страница также отображается в формате UTF-8.

0 голосов
/ 29 сентября 2010

Я предлагаю открыть эти паршивые html-файлы в редакторе, например: Notepad ++ и просто выполнить поиск и замену во всех открытых документах.

...