Я использовал автоматизацию MS Word для сохранения .doc в .htm. Если в файле .doc есть маркеры, они нормально сохраняются в .htm, но когда я пытаюсь прочитать файл .htm в строку (поэтому я могу впоследствии отправить в базу данных для окончательного хранения в виде строки, а не BLOB-объектов), маркеры преобразуются в знаки вопроса или другие символы в зависимости от кодировки, используемой для загрузки в строку.
Я использую это, чтобы прочитать текст:
string html = File.ReadAllText(myFileSpec);
Я также пытался использовать StreamReader, но получаю те же результаты (возможно, он используется внутри File.ReadAllText).
Я также попытался указать каждый тип кодировки во второй перегрузке File.ReadAllText:
string html = File.ReadAllText(originalFile, Encoding.ASCII);
Я перепробовал все доступные перечисления для типа Encoding.
Есть идеи?