Полагаю, прошло несколько лет, но я подумал о том, чтобы сделать что-то подобное сам, и натолкнулся на это, так что подумал, что могу нанести удар в случае, если это пригодится кому-либо еще в f
Даже если вы говорите, что хотите разобрать бесплатный тест, большинство рецептов имеют довольно стандартный формат для своих списков рецептов: каждый ингредиент находится на отдельной строке, точная структура предложений редко бывает так важна. Диапазон вокаба также относительно невелик.
Одним из способов может быть проверка каждой строки на наличие слов, которые могут быть существительными и словами / символами, выражающими количество. Я думаю, что WordNet может помочь с определением, является ли слово существительным или нет, но я не использовал его раньше. В качестве альтернативы, вы можете использовать http://en.wikibooks.org/wiki/Cookbook:Ingredients в качестве списка слов, хотя, опять же, я не знаю точно, насколько он исчерпывающий.
Другая часть - распознавать количества. Они бывают нескольких разных форм, но достаточно мало, чтобы вы могли создать список ключевых слов. В частности, убедитесь, что у вас есть хорошие сообщения об ошибках. Если программа не может полностью проанализировать строку, попросите ее сообщить вам, что это за строка, а также то, что она обнаружила / не распознала, чтобы вы могли соответствующим образом настроить списки ключевых слов.
Aaanyway, я не гарантирую, что все это будет работать (и почти наверняка это не будет на 100% надежно), но именно так я бы начал подходить к проблеме