Контролируемая автоматическая генерация xml из текста / html кода через нейронные сети - PullRequest
0 голосов
/ 08 мая 2019

Мне нужно создать нейронную сеть, которая преобразует текстовый файл (например, текст какой-нибудь пьесы) в формат tei xml.

Например, для преобразования

Аксенов
    Здорово ль, кум?

Лыткин
    Здорово, Петр Аксеныч.
    Тебя как милует Господь?

в

<sp who="#aksenov">
    <speaker>Аксенов</speaker>
    <l part="I">Здорово ль, кум?</l>
</sp>
<sp who="#lytkin">
    <speaker>Лыткин</speaker>
    <l part="F">Здорово, Петр Аксеныч.</l>
    <l part="I">Тебя как милует Господь?</l>
</sp>

Но это не так просто, потому что почти всегда существует двусмысленность: либо должен быть тег <stage>, либо тег <sp>, либо тег <l> (строки для поэзии), либо <p> - тег (абзацы для прозы) и т. д.

Я пытался написать скрипт, который конвертирует txt-файл, следуя некоторым правилам, но вряд ли можно предвидеть все возможные специфические для автора случаи в структуре (даже при представлении сцены), поэтому я решил использовать более общий подход , Проблема в том, что я не могу решить, что лучше для такой задачи.

Я хотел использовать RNN, но на самом деле мне нужно генерировать не случайный текст, а тот же текст с разметкой. Я видел много примеров image-to -... (-latex_formulas / -html), но ни один из тех, которые преобразуют текст в текст, сохраняет исходный текст и добавляет разметку.

Может быть, некоторые из вас уже сталкивались с подобными проблемами или знают возможные решения или имеют примеры существующих решений для подобных задач? Не могли бы вы поделиться этими знаниями со мной?

Любая помощь очень ценится!

...