Я пытаюсь взять html и сгенерировать некоторый json, который сохраняет ту же структуру.
Я пытаюсь использовать pandoc, поскольку у меня был некоторый успех в преобразовании вещей из формата A в формат Bраньше использовал pandoc.
Я пытаюсь преобразовать этот файл:
example.html
<p>Hello guys! What's up?</p>
С помощью команды:
pandoc -f html -t json example.html
То, что я ожидаю, выглядит примерно так:
[{ "p": "Hello guys! What's up?"}]
То, что я получаю, это:
[
{ "Para":
[
{"t": "Str", "c": "Hello"},
{"t": "Space"},
{"t": "Str", "c": "guys!"},
{"t": "Space"},
{"t": "Str", "c": "What's"},
{"t": "Space"},
{"t": "Str", "c": "up?"}
]
}
]
Проблема заключается в том, что когда pandoc читает текстовое содержимое, оноотделяет каждое слово на основе символа пробела и составляет из него массив, в то время как я ожидал, что pandoc поймет, что вся строка - это один элемент.
Я новичок в pandoc, и я не былудалось выяснить, как настроить это поведение.
У вас есть представление о том, как я могу получить желаемый результат?Знаете ли вы еще один инструмент, который может сделать это?Инструмент или язык, на котором он написан, не имеет значения.
Спасибо.
Редактировать : Вы можете проверить это поведение онлайн на этом онлайн-инструменте pandoc..
Редактировать 2 : Обходной путь.Я не мог найти, как сделать преобразование HTML-> JSON с pandoc.В качестве обходного пути я использовал предложение, предложенное в комментариях, и реализовал решение, используя Гималаи , который представляет собой пакет узлов.Результат - именно то, чего я желал, даже если он не использует pandoc.