У меня огромное количество файлов, которые я пытаюсь проанализировать с помощью boost :: spirit :: qi. Разбор не является проблемой, но некоторые файлы содержат шум, который я хочу пропустить. Создание простого синтаксического анализатора (без использования boost :: spirit :: qi) подтверждает, что я могу избежать шума, пропуская все, что не соответствует правилам, в начале строки. Итак, я ищу способ написать анализатор на основе строк, который пропускает строки, если они не соответствуют ни одному правилу.
В приведенном ниже примере грамматика позволяет пропускать строки, если они вообще не совпадают, но правило «мусор» по-прежнему вставляет пустой экземпляр V (), что является нежелательным поведением.
Использование \ r вместо \ n в этом примере является преднамеренным, так как я встречал в файлах \ n, \ r и \ r \ n.
#include <iostream>
#include <string>
#include <vector>
#include <boost/foreach.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/phoenix.hpp>
#include <boost/fusion/include/std_tuple.hpp>
namespace qi = boost::spirit::qi;
namespace ascii = boost::spirit::ascii;
namespace phx = boost::phoenix;
using V = std::tuple<std::string, double, double, double>;
namespace client {
template <typename Iterator>
struct VGrammar : qi::grammar<Iterator, std::vector<V>(), ascii::space_type> {
VGrammar() : VGrammar::base_type(start) {
using namespace qi;
v %= string("v") > double_ > double_ > double_;
junk = +(char_ - eol);
start %= +(v | junk);
v.name("v");
junk.name("junk");
start.name("start");
using phx::val;
using phx::construct;
on_error<fail>(
start,
std::cout
<< val("Error! Expecting \n\n'")
<< qi::_4
<< val("'\n\n here: \n\n'")
<< construct<std::string>(qi::_3, qi::_2)
<< val("'")
<< std::endl
);
//debug(v);
//debug(junk);
//debug(start);
}
qi::rule<Iterator> junk;
//qi::rule<Iterator, qi::unused_type()> junk; // Doesn't work either
//qi::rule<Iterator, qi::unused_type(), qi::unused_type()> junk; // Doesn't work either
qi::rule<Iterator, V(), ascii::space_type> v;
qi::rule<Iterator, std::vector<V>(), ascii::space_type> start;
};
} // namespace client
int main(int argc, char* argv[]) {
using iterator_type = std::string::const_iterator;
std::string input = "";
input += "v 1 2 3\r"; // keep v 1 2 3
input += "o a b c\r"; // parse as junk
input += "v 4 5 6 v 7 8 9\r"; // keep v 4 5 6, but parse v 7 8 9 as junk
input += " v 10 11 12\r\r"; // parse as junk
iterator_type iter = input.begin();
const iterator_type end = input.end();
std::vector<V> parsed_output;
client::VGrammar<iterator_type> v_grammar;
std::cout << "run" << std::endl;
bool r = phrase_parse(iter, end, v_grammar, ascii::space, parsed_output);
std::cout << "done ... r: " << (r ? "true" : "false") << ", iter==end: " << ((iter == end) ? "true" : "false") << std::endl;
if (r && (iter == end)) {
BOOST_FOREACH(V const& v_row, parsed_output) {
std::cout << std::get<0>(v_row) << ", " << std::get<1>(v_row) << ", " << std::get<2>(v_row) << ", " << std::get<3>(v_row) << std::endl;
}
}
return EXIT_SUCCESS;
}
Вот вывод из примера:
run
done ... r: true, iter==end: true
v, 1, 2, 3
, 0, 0, 0
v, 4, 5, 6
v, 7, 8, 9
v, 10, 11, 12
И вот что я на самом деле хочу, чтобы парсер возвращал.
run
done ... r: true, iter==end: true
v, 1, 2, 3
v, 4, 5, 6
Моя главная проблема сейчас состоит в том, чтобы не дать правилу «нежелательной» добавлять пустой объект V (). Как мне это сделать? Или я обдумываю проблему?
Я попытался добавить lit (мусор) к правилу запуска, так как lit () ничего не возвращает, но это не скомпилируется. Сбой: «статическое утверждение не выполнено: error_invalid_expression».
Я также пытался установить семантическое действие в правиле нежелательной почты на qi :: unused_type (), но в этом случае правило все еще создает пустой V ().
Мне известны следующие вопросы, но они не решают эту конкретную проблему. Я опробовал комментарий шкипера ранее, но похоже, что мне придется переопределить все правила разбора в шкипере, чтобы определить шум. Мой пример вдохновлен решением в последней ссылке:
Как пропустить комментарии строки / блока / вложенного блока в Boost.Spirit?
Как разобрать записи, за которыми следуют точка с запятой или новая строка (boost :: spirit)?
Информация о версии:
Linux debian 4.9.0-7-amd64 #1 SMP Debian 4.9.110-3+deb9u2 (2018-08-13) x86_64 GNU/Linux
g++ (Debian 6.3.0-18+deb9u1) 6.3.0 20170516
#define BOOST_VERSION 106200
и
Linux raspberrypi 4.14.24-v7+ #1097 SMP Mon Mar 5 16:42:05 GMT 2018 armv7l GNU/Linux
g++ (Raspbian 4.9.2-10+deb8u1) 4.9.2
#define BOOST_VERSION 106200
Для тех, кто задается вопросом: да, я пытаюсь проанализировать файлы, похожие на файлы Wavefront OBJ, и я знаю, что уже есть куча парсеров. Однако данные, которые я анализирую, являются частью более крупной структуры данных, которая также требует анализа, поэтому имеет смысл создать новый синтаксический анализатор.