Я впервые с реверс-инжинирингом. Я нахожу это довольно интересным, но сложным. Я потратил пару дней на это, но я зашел в тупик (действительно нуждаюсь в руководстве).
Моя цель - автоматически извлекать текст и информацию о его стиле из файлов InPage (текстовый редактор для индоиранских языков). Я нашел скрипт , который извлекает текст Урду путем синтаксического анализа гекса, но я не могу извлечь стили.
Так работают стили в InPage. Вы должны выбрать стиль для каждой строки в InPage, используя ComboBox в верхнем левом углу: ![Screenshot of InPage](https://i.stack.imgur.com/vsTos.png)
Таким образом, для каждой строки в тексте есть стиль, например, Normal1
с этим и моя цель состоит в том, чтобы извлечь стиль для каждой строки в тексте.
TrID - Идентификатор файла говорит мне, что файл InPage .inp
является составным документом OLE2 Хранение файла. Я использовал FlexHex для анализа документа и нашел два потока: InPage100
и DocumentInfo
.
На данный момент это мой прогресс:
- По умолчанию InPage имеет только один стиль
Normal
. Пользовательские стили все включены в файл. Шестнадцатеричный редактор сообщает мне, где они определены, поскольку он автоматически преобразует гекс в engli sh. Однако в этом разделе нет информации о том, где применяются стили. Я изменил места, где применяются стили, и этот раздел остался неизменным. - Я сделал
base1.inp
с четырьмя пользовательскими стилями и одним предложением. Затем я сделал еще три файла с тем же предложением, но с другим стилем. Затем я использовал 010 Editor для сравнения файлов, но не смог найти шаблон. - В шестнадцатеричных кодах, представляющих текстовое содержимое, нет информации о стилях. Все вышеперечисленные
base.inp
файлы дают одинаковый вывод, используя script , который просматривает определенный раздел c в середине файла. Это оставляет раздел выше и ниже, где кодируется информация о стилях.
Любой совет, что мне делать?