Парсер для преобразования данных из простого текста в XML - PullRequest
1 голос
/ 20 ноября 2010

Я программист-любитель PHP / Javascript, пытающийся создать парсер для преобразования данных из простого текста в XML.

Структура открытого текста варьируется от документа к документу, но содержание в каждом из них одинаковое, оно просто представлено.

Я наполовину написал собственный синтаксический анализатор для преобразования данных и хотел бы знать, правильно ли я сейчас поступлю?

Я пытаюсь прочитать о парсерах рекурсивного спуска и парсерах LALR, но мне кажется, что это происходит у меня над головой, поэтому мне интересно, не теряю ли я свое время, придумывая свой собственный метод для этого?

Я маркировал каждый из важных элементов, оценивал (согласно информации, хранящейся в шаблоне) и подсчитывал частоту каждого шаблона.

Используя счет (это делается путем добавления 1,2,4,8 и т. Д. Для каждого бита информации), можно отсеять потенциальные дублирующие шаблоны / информацию (поскольку формат информации будет заданным форматом и повторяется по всему тексту) и частоту, с которой можно отказаться от тех шаблонов, которые вряд ли передадут какое-либо значение.

Правильный ли это путь или я создаю угрозу ремонтопригодности?

Кстати, я использую PHP.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...