Двунаправленные рекомендации по синтаксическому анализу текста - PullRequest
2 голосов
/ 26 февраля 2011

Я смотрю на возможность реализации двунаправленной структуры синтаксического анализа текста, позволяющей обрабатывать форматированный текст с использованием комбинации общих парадигм, таких как Markdown, BBCode, DocuWiki и т. Д. На практике это означает, что каждое внедрение должно быть в состоянии переводить в общий формат и обратно. Это может быть HTML, но более реалистично промежуточный (более легко разбираемый) формат, такой как XML или YAML.

Это, вероятно, будет использовать токенизатор, чтобы разбить документ на соответствующие компоненты. Похоже ли это на лучший подход и можете ли вы предвидеть какие-либо существенные препятствия?

Наконец, кто-нибудь знает о существующих реализациях (или попытках).

Обратите внимание, что это сфокусировано на PHP, но приветствуются и другие решения.

1 Ответ

1 голос
/ 28 февраля 2011

Посмотрите на источник HTML-парсера, такого как Nokogiri, Hpricot, BeautifulSoup и т. Д. Они дадут вам пищу для размышлений о создании структурированного синтаксического анализатора текста.

Вероятно, нет необходимости переводить напромежуточный формат, так как дерево токенизированных объектов будет всем, что вам нужно для построения всех выходных форматов.

Если у вас есть конкретные вопросы по реализации, вы также должны опубликовать их.

...