извлечь текст из MHT - PullRequest
4 голосов
/ 15 мая 2009

У меня есть файл MHT, я хочу получить весь текст MHT. Я думал об использовании регулярных выражений, но у меня есть другие языки в mht, кроме английского, поэтому сам текст содержит такие вещи, как A7 = A98 = D6 ...

выделите весь текст файла, просматриваемого в вашем браузере, а затем скопируйте и вставьте его в блокнот - это то, что мне нужно.

Спасибо.

1 Ответ

1 голос
/ 16 мая 2009

Откройте файл в Internet Explorer и сохраните его в виде обычного текста (UTF-8). :) Если вам нужно автоматизированное решение, ищите конвертер mht в txt для вашей платформы или языка программирования.

На самом деле, вы можете автоматизировать это и в Powershell:

$ie = New-Object -ComObject "InternetExplorer.Application"
$ie.Navigate2("file:///C:/MyFile.mht")
$text = $ie.Document.documentElement.innerText
...