инструмент для извлечения структур данных из нечистых данных - PullRequest
0 голосов
/ 29 марта 2011

У меня есть неструктурированные нечистые данные в поле базы данных. Существуют общие структуры, которые согласуются в данных

, а именно:

field:

name:value 

fieldset: 

nombre <FieldSet>
field,
  .
  .
  .
field(n)

table

nombre <table>
head(1)... head(n)
val(1)...  val(n)
      .
      .
      .

Мне было интересно, есть ли инструмент (предпочтительно на Java), который мог бы извлекать, изучать / понимать эти структуры данных, анализировать файл и преобразовывать в карту или объект, на котором я мог бы проводить проверки?

Я знаю об Antlr, но понимаю, что это больше связано с построением дерева, а не с независимыми битами данных (я ошибаюсь?)

У кого-нибудь есть предложения по проблеме в целом?

Ответы [ 3 ]

2 голосов
/ 06 апреля 2011

Я рекомендую Talend . Это очень универсальный инструмент интеграции данных с открытым исходным кодом. Он основан на Java. Вы можете использовать встроенные инструменты / компоненты для извлечения данных из неструктурированных источников данных. Вы также можете написать сложный пользовательский код Java, чтобы делать то, что вы хотите.

Я использовал Talend в паре научных доказательств моих концептуальных проектов. Это сработало для меня. Хорошая часть, это бесплатно!

0 голосов
/ 01 марта 2017

Вы должны использовать «bnflite» https://github.com/r35382/bnflite Используя эту библиотеку шаблонов, вам необходимо разработать BNF-подобную грамматику для вашего текста с помощью классов и перегруженных операторов непосредственно в коде C ++.Преимущество заключается в том, что такая грамматика легко подстраивается под ваш источник

0 голосов
/ 13 апреля 2011

В итоге мы использовали для этого antlr, нам потребовалось создать несколько лексеров, где один лексер манипулировал бы вводом для следующего лексера.

Еще один проект - пэды - написал на C

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...