Должен ли я использовать LingPipe или NLTK для извлечения имен и мест? - PullRequest
6 голосов
/ 01 ноября 2009

Я ищу, чтобы извлечь названия и места из очень коротких пакетов текста пример

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Эти данные в настоящее время находятся в базе данных MySQL, и у меня (в значительной степени) есть отдельная запись для каждого спортсмена, хотя имена иногда пишутся неправильно и т. Д.

Я хотел бы извлечь спортсменов и локации. Я обычно работаю в PHP, но не смог найти библиотеку для извлечения сущностей (и, возможно, я захочу углубиться в некоторые NLP и ML в будущем).

Из того, что я нашел, LingPipe и NLTK кажутся наиболее рекомендованными, но я не могу понять, действительно ли это подойдет для моих целей, или если что-то иначе было бы лучше.

Я не программировал ни на Java, ни на Python, поэтому, прежде чем я начну изучать новые языки, я надеюсь получить несколько советов о том, по какому маршруту я должен следовать, или другие рекомендации.

1 Ответ

4 голосов
/ 02 ноября 2009

То, что вы описываете, это распознавание именованных сущностей . Поэтому я бы порекомендовал проверить другие вопросы по этой теме, если вы их еще не видели. Этот выглядит для меня наиболее полезным ответом.

Я не могу прокомментировать, подходит ли NLTK или LingPipe для этой задачи, хотя, глядя на ответы, можно увидеть, что на Java написано немало других ресурсов.

Одним из преимуществ использования NLTK является то, что Python очень доступен как язык. Другое преимущество состоит в том, что книга NLTK (которая доступна бесплатно) предлагает введение в Python и NLTK одновременно, что было бы полезно для вас.

...