Я ищу алгоритм / услугу извлечения терминов.Это всего лишь предложение для редактора, поэтому извлеченные термины могут быть неполными.Таким образом, я хочу, чтобы он сравнивал текст со списком доступных терминов, и не предлагает термины вне этого списка.
Задача кажется тривиальной: для каждого термина подсчитать количество появлений в тексте, отфильтроватьлучшие условия.Но здесь у меня есть список из нескольких десятков тысяч терминов , эта задача выглядит невозможной.Знаете ли вы службу или алгоритм, который это делает?
Другая деталь в том, что, хотя я вполне доволен службой извлечения терминов (затем отфильтрую эти термины на основе моего списка), это не английский языки большинство слов являются составными словами, поэтому я не знаю никакой полезной услуги.
Спасибо.
Редактировать: пример
Hôm thứ Hai 31/1/ 2011, Ericsson выбирает HSPA (высокоскоростной пакетный доступ) от 168 Мбит / с, до 24 000 Мбит / с.Буни трин дин с дун мэм нгуен мю тхе бе н с т tм бе ме т ,м, в котором я живу синглТел те, которые мне нравятся Эрикссон.В то же время, антенна MIMO (с несколькими входами и несколькими выходами) работает в режиме реального времени.MIMO s anten d antenng nhiều антенна, которая работает над музыкой.
Тео Эрикссон, cũ cẽ có một buổi trình diễn như vậy được tiến ếởởởở Mobileởởở (((ởở (ởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởBan Nha)
И список предложений может быть: Ericsson, trình diễn, HSPA, антенна (среди прочих)