Это некая образованная догадка, что вы просто испытываете наивное преобразование документов Word / PDF в HTML.(наиболее вероятно, с windows-1252 до utf8). В этом случае, вероятно, 2/3 загадочных символов в документах Word являются «умными цитатами», а большинство остальных - результат их других «умных» функций редактирования, elipsis, em dashes.и т. д. PDF-файлы, вероятно, имеют схожие характеристики.
Я бы также предположил, что если форматирование после вставки в редактор ExtJS выглядит нормально, то кодирование передается.В зависимости от полученного в результате использования текста вам может не потребоваться преобразование.
Если я все еще нахожусь на базе, и мы не говорим о проблемах интернационализации, то я могу добавить, что есть Word в HTMLесть конвертеры, но я не знаю деталей их работы, и у меня был неоднозначный успех при их оценке.Почти наверняка есть небольшая потеря / ошибка информации, связанная с такими конвертерами, так как они должны догадаться об источнике «умных» символов.В моем изолированном случае было проще просто вернуться к пользователям и отключить их «умные» функции.