Почему некоторые файлы выглядят как частичная тарабарщина при открытии в текстовом редакторе? - PullRequest
0 голосов
/ 04 июня 2018

Я часто сталкиваюсь с ситуацией, когда я хотел бы прочитать исходное содержимое файла понятным для человека способом.При открытии файла такого типа в текстовом редакторе, почему это, как правило, бред с некоторым полным и понятным текстом ?Я бы подумал, что если файл преобразуется во что-то, отличное от его оригинального письменного формата, то не останется никакого понятного текста , но я часто нахожу его где-то посередине.

ДляНапример, я знаю, что если я открою бинарный файл в текстовом формате, не останется ничего понятного, что не является чисто случайным.

Пример снимка экрана с частичным бредовым текстом

Почему здесь полный текст, смешанный с тарабарщиной?Означает ли это, что если я открою файл с какой-то другой кодировкой (я не знаю, что это возможно), файл будет отображаться как полностью читаемый текст?Я бы понял, если бы это было все-или-ничего (либо не читаемый тарабарский ИЛИ человеческий язык), но я не понимаю промежуточный.

Пожалуйста, предоставьте образовательные ответы, а не "потому что это так " типа ответов.

1 Ответ

0 голосов
/ 04 июня 2018

Это символы форматирования;стандартное использование отсутствует и зависит от формата файла.Вы по-прежнему можете извлекать текст по мере необходимости, если будете хорошо знать grep и regex, но это будет неинтересно.Лучше всего открыть файл с помощью программного обеспечения, которое может правильно его прочитать, так как текстовый редактор, такой как gedit или Notepad ++, будет читать необработанные данные и отображать их.Например, в формате pdf от Adobe есть встроенный текст, и все, что он говорит, - это инструкции для программного обеспечения Reader по правильному отображению его на экране, в то же время позволяя относительно просто извлекать текст при необходимости.

Редакторы не имеют реального способа интерпретации специальных символов форматирования, и их необходимо будет загружать с помощью API для каждой мыслимой программы.Их также необходимо постоянно обновлять, поскольку форматирование регулярно изменяется по ряду причин.Во многих случаях это просто препятствует обратной совместимости файлов с их собственными или другими продуктами, что приводит к необходимости обновления.Microsoft довольно известна этим, но они далеко не единственная компания, которая делает это.

...