Я ищу, чтобы извлечь названия и места из очень коротких пакетов текста пример
"cardinals vs jays in toronto"
" Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".
Эти данные в настоящее время находятся в базе данных MySQL, и у меня (в значительной степени) есть отдельная запись для каждого спортсмена, хотя имена иногда пишутся неправильно и т. Д.
Я хотел бы извлечь спортсменов и локации.
Я обычно работаю в PHP, но не смог найти библиотеку для извлечения сущностей (и, возможно, я захочу углубиться в некоторые NLP и ML в будущем).
Из того, что я нашел, LingPipe и NLTK кажутся наиболее рекомендованными, но я не могу понять, действительно ли это подойдет для моих целей, или если что-то иначе было бы лучше.
Я не программировал ни на Java, ни на Python, поэтому, прежде чем я начну изучать новые языки, я надеюсь получить несколько советов о том, по какому маршруту я должен следовать, или другие рекомендации.