Ручная маркировка тренировочного набора с индивидуальными метками - PullRequest
5 голосов
/ 20 ноября 2011

Я хотел бы выполнить некоторую обработку естественного языка по кулинарным рецептам, в частности по ингредиентам (возможно, подготовка позже). По сути, я хочу создать свой собственный набор POS-тегов, чтобы определить смысл линии ингредиентов.

Например, если один из ингредиентов был: 3/4 стакана (слегка упакованные) плоские листья петрушки, разделенные

Я бы хотел, чтобы теги выражали перечисленный ингредиент и количество, которое обычно представляет собой число, за которым следует некоторая единица измерения. Например:

3 \ NUM-QTY / \ FRACTION4 \ NUM-QTY cup \ N-MEAS (слегка \ ADV упакованный \ VD) [плоский лист \ ADJ петрушка \ N] \ INGREDIENT листья \ N, разделенные \ VD

теги, которые я нашел здесь .

Я не уверен в нескольких вещах:

  1. Должен ли я использовать пользовательские теги, или я должен выполнять какую-либо обработку после тегирования после использования ранее существующего тегера?
  2. Если я использую пользовательские теги, является ли лучший способ создать обучающий текст, чтобы просто просмотреть список ингредиентов и пометить все вручную?

Мне кажется, что эта языковая обработка настолько специфична, что было бы полезно обучить тегер на соответствующем наборе, но я не совсем уверен, как поступить.

Спасибо!

1 Ответ

3 голосов
/ 20 ноября 2011

Используйте библиотеку pattern.search.

Библиотека шаблонов python поддерживает множество тегов [1], включая тег кардинального числа (CD).

После того, как вы пометили кардиналов, дроби "кардинал / кардинал "или что-то вроде" кардинал / кардинал ".

А что касается количества, вы должны построить таксономию количества приготовления.библиотека шаблонов python также поддерживает лемматизацию [2].

Я думаю, используя pattern.search [2], вы можете создать ограничение, которое будет соответствовать вашим данным, и выполнять поиск по тексту, используя его.

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...