Я хотел бы выполнить некоторую обработку естественного языка по кулинарным рецептам, в частности по ингредиентам (возможно, подготовка позже). По сути, я хочу создать свой собственный набор POS-тегов, чтобы определить смысл линии ингредиентов.
Например, если один из ингредиентов был:
3/4 стакана (слегка упакованные) плоские листья петрушки, разделенные
Я бы хотел, чтобы теги выражали перечисленный ингредиент и количество, которое обычно представляет собой число, за которым следует некоторая единица измерения. Например:
3 \ NUM-QTY / \ FRACTION4 \ NUM-QTY cup \ N-MEAS (слегка \ ADV упакованный \ VD) [плоский лист \ ADJ петрушка \ N] \ INGREDIENT листья \ N, разделенные \ VD
теги, которые я нашел здесь .
Я не уверен в нескольких вещах:
- Должен ли я использовать пользовательские теги, или я должен выполнять какую-либо обработку после тегирования после использования ранее существующего тегера?
- Если я использую пользовательские теги, является ли лучший способ создать обучающий текст, чтобы просто просмотреть список ингредиентов и пометить все вручную?
Мне кажется, что эта языковая обработка настолько специфична, что было бы полезно обучить тегер на соответствующем наборе, но я не совсем уверен, как поступить.
Спасибо!