Получить стили из закрытого формата документа (InPage) - PullRequest
0 голосов
/ 17 апреля 2020

Я впервые с реверс-инжинирингом. Я нахожу это довольно интересным, но сложным. Я потратил пару дней на это, но я зашел в тупик (действительно нуждаюсь в руководстве).

Моя цель - автоматически извлекать текст и информацию о его стиле из файлов InPage (текстовый редактор для индоиранских языков). Я нашел скрипт , который извлекает текст Урду путем синтаксического анализа гекса, но я не могу извлечь стили.

Так работают стили в InPage. Вы должны выбрать стиль для каждой строки в InPage, используя ComboBox в верхнем левом углу: Screenshot of InPage

Таким образом, для каждой строки в тексте есть стиль, например, Normal1 с этим и моя цель состоит в том, чтобы извлечь стиль для каждой строки в тексте.

TrID - Идентификатор файла говорит мне, что файл InPage .inp является составным документом OLE2 Хранение файла. Я использовал FlexHex для анализа документа и нашел два потока: InPage100 и DocumentInfo.

На данный момент это мой прогресс:

  • По умолчанию InPage имеет только один стиль Normal. Пользовательские стили все включены в файл. Шестнадцатеричный редактор сообщает мне, где они определены, поскольку он автоматически преобразует гекс в engli sh. Однако в этом разделе нет информации о том, где применяются стили. Я изменил места, где применяются стили, и этот раздел остался неизменным.
  • Я сделал base1.inp с четырьмя пользовательскими стилями и одним предложением. Затем я сделал еще три файла с тем же предложением, но с другим стилем. Затем я использовал 010 Editor для сравнения файлов, но не смог найти шаблон.
  • В шестнадцатеричных кодах, представляющих текстовое содержимое, нет информации о стилях. Все вышеперечисленные base.inp файлы дают одинаковый вывод, используя script , который просматривает определенный раздел c в середине файла. Это оставляет раздел выше и ниже, где кодируется информация о стилях.

Любой совет, что мне делать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...