Я играю со структурой извлечения dbpedia.Кажется, это очень приятно, и я с удовольствием создаю AST-страницы википедии и извлекаю ссылки (используя WikiParser).Однако, хотя я получаю хорошее структурированное дерево из анализа, я замечаю, что текстовые узлы по-прежнему содержат много разметки форматирования (например, апострофы, используемые для курсива, полужирного шрифта и т. Д.).Для моих целей это не полезно - я просто хочу простой текст.
Я могу потратить некоторое время на написание своего собственного кода, чтобы убрать это, но я предполагаю, что что-то подобное будет полезно для dbpedia -и что он существует где-то в библиотеке.Я прав?И если так - где дополнительная функциональность, чтобы урезать ее до чистого текста?
В противном случае - кто-нибудь знает какие-либо другие (предпочтительно scala) пакеты для вырезания разметки MediaWiki?
Редактировать
В ответ на запрос о более подробной информации.Следующая разметка:
''An italicised '''bit''' of text'', <b>Some markup</b>
Проходит через dbpedia как содержимое TextNode, но не трогается.Я хотел бы иметь возможность либо сократить его до:
An italicised bit of text, Some markup
Или, возможно, до более структурированного AST с дополнительными узлами, представляющими каждый раздел необработанного текста, возможно аннотированный (на каждом узле) типом форматированиядля применения (например, курсив, жирный шрифт и т. д.).
Как таковой, конечный результат анализа dbpedia все еще полон разметки.
Надеюсь, что поможет.