Разбор данных и POS с Treetop против Стэнфорда NLP - PullRequest
0 голосов
/ 08 июля 2011

Я пытаюсь проанализировать данные событий (концерты, фильмы и т. Д.) В Ruby и не могу определиться с тем, какой инструмент использовать.

Сначала я подумал, что парнер из Стэнфорда - это путь, но потом услышал о верхушке деревьев.

Я борюсь с обоими, так как для того, чтобы заставить анализатор Стэнфорда работать с Ruby в Windows, потребовалось два с лишним дня поиска и борьбы, и не было никаких ошибок при простой установке.

Treetop установлен без проблем, но документация очень ограничена, и из того, что я могу собрать, кажется, что treetop лучше справляется со структурой грамматики, чем с фактическим содержанием, но, возможно, я просто не полностьюпонимание возможностей Treetop.

Одной из приятных вещей (я думаю) является то, что у меня есть большая база данных / корпус (?) Названий групп и фильмов и довольно ограниченные части данных, которые я ищу для извлечения.

Например, один листинг

The Tragically Hip with Guest Hey Rosetta!, Friday Jul 15th, 7:30pm, Deer Lake Park

Другой листинг

07/08/11 - Tacoma Dome,  New Kids on the Block & Backstreet Boys w/ Matthew Morrison, 7:30pm, Tacoma, WA

С каждым листингом я пытаюсь собрать довольно специфическую группу деталей: кто /что, дата, время, город, место проведения.

Поскольку у меня уже есть набор данных названий групп, и названия городов должны быть довольно легко получить список, его должно быть "довольно" легко выбратьдругие детали, я просто не уверен, какому инструменту я должен посвятить свое время, или есть ли лучший способ сделать это?

Есть предложения?

1 Ответ

2 голосов
/ 11 июля 2011

Нет, treetop используется для разбора более структурированных языков (например, компьютерных языков).Для синтаксического анализа естественного языка (NLP) лучше использовать Stanford Parser или что-то в этом роде.Посмотрите на эту запись в блоге о НЛП в сочетании с Ruby:

http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

...