Поиск термина / фразы в тексте - PullRequest
0 голосов
/ 01 мая 2011

У меня есть база данных терминов и фраз.
Если эти термины / фразы существуют в тексте, это говорит о том, для чего они актуальны.Это можно сделать с помощью 2 apis, доступных онлайн
http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
Но результаты - не то, чего я хочу.
Я интуитивно вижу, что это можно сделать очень утонченно(не ресурсоемкий)
В этом моя проблема.Я не могу понять, как это сделать быстро и с очень низкой нагрузкой на ресурсы (ЦП и память)
Термины / фразы приведены в миллионах, как и текстовые строки.PHP - единственный язык, с которым я знаком.Спасибо за ваши предложения.

1 Ответ

0 голосов
/ 01 мая 2011

Вы можете использовать lucene, чтобы извлечь термины из документов и сопоставить их с вашей базой данных. Насколько я знаю, есть PHP / Zend API / Port для lucene.

Был похожий вопрос, как это сделать с lucene в Java. Это должно указать вам правильное направление: Эффективный поиск по маленькому тексту

...