Я программист-любитель PHP / Javascript, пытающийся создать парсер для преобразования данных из простого текста в XML.
Структура открытого текста варьируется от документа к документу, но содержание в каждом из них одинаковое, оно просто представлено.
Я наполовину написал собственный синтаксический анализатор для преобразования данных и хотел бы знать, правильно ли я сейчас поступлю?
Я пытаюсь прочитать о парсерах рекурсивного спуска и парсерах LALR, но мне кажется, что это происходит у меня над головой, поэтому мне интересно, не теряю ли я свое время, придумывая свой собственный метод для этого?
Я маркировал каждый из важных элементов, оценивал (согласно информации, хранящейся в шаблоне) и подсчитывал частоту каждого шаблона.
Используя счет (это делается путем добавления 1,2,4,8 и т. Д. Для каждого бита информации), можно отсеять потенциальные дублирующие шаблоны / информацию (поскольку формат информации будет заданным форматом и повторяется по всему тексту) и частоту, с которой можно отказаться от тех шаблонов, которые вряд ли передадут какое-либо значение.
Правильный ли это путь или я создаю угрозу ремонтопригодности?
Кстати, я использую PHP.