Неструктурированный текст с несоответствующим форматом для структурированных данных - PullRequest
0 голосов
/ 25 сентября 2019

У нас есть база данных с несколькими тысячами рецептов.Эти рецепты содержат условия обработки и инструкции в простом текстовом поле общего формата:

  1. Примечания
  2. Настройки аппарата a.Скорость б.Температура
  3. QC Testing
  4. История изменений

Я хочу иметь возможность анализировать данные в этом текстовом поле.Для этого я хочу разобрать текст, чтобы структурировать данные.Сложность заключается в том, что данные представлены в похожем, но несовместимом формате, т.е.

  • данные находятся в похожих местах в текстовом файле с похожими тегами / именами
  • , но существуют различия в пробелах и разрывы строк вокруг данных и разделов данных
  • некоторые данные представляют собой несколько строк текста (т.е. примечания), а не конкретные значения (например, скорость)

Я искал NLP с использованием Python (GATE & NLTK), но мне неясно, если этоможно извлечь полные блоки текста (примечания), а также конкретные значения (скорость).

В общем, каковы мои варианты разбора таких текстов?

...