У нас есть база данных с несколькими тысячами рецептов.Эти рецепты содержат условия обработки и инструкции в простом текстовом поле общего формата:
- Примечания
- Настройки аппарата a.Скорость б.Температура
- QC Testing
- История изменений
Я хочу иметь возможность анализировать данные в этом текстовом поле.Для этого я хочу разобрать текст, чтобы структурировать данные.Сложность заключается в том, что данные представлены в похожем, но несовместимом формате, т.е.
- данные находятся в похожих местах в текстовом файле с похожими тегами / именами
- , но существуют различия в пробелах и разрывы строк вокруг данных и разделов данных
- некоторые данные представляют собой несколько строк текста (т.е. примечания), а не конкретные значения (например, скорость)
Я искал NLP с использованием Python (GATE & NLTK), но мне неясно, если этоможно извлечь полные блоки текста (примечания), а также конкретные значения (скорость).
В общем, каковы мои варианты разбора таких текстов?