Срок извлечения со списком доступных терминов - PullRequest
0 голосов
/ 01 февраля 2011

Я ищу алгоритм / услугу извлечения терминов.Это всего лишь предложение для редактора, поэтому извлеченные термины могут быть неполными.Таким образом, я хочу, чтобы он сравнивал текст со списком доступных терминов, и не предлагает термины вне этого списка.

Задача кажется тривиальной: для каждого термина подсчитать количество появлений в тексте, отфильтроватьлучшие условия.Но здесь у меня есть список из нескольких десятков тысяч терминов , эта задача выглядит невозможной.Знаете ли вы службу или алгоритм, который это делает?

Другая деталь в том, что, хотя я вполне доволен службой извлечения терминов (затем отфильтрую эти термины на основе моего списка), это не английский языки большинство слов являются составными словами, поэтому я не знаю никакой полезной услуги.

Спасибо.

Редактировать: пример

Hôm thứ Hai 31/1/ 2011, Ericsson выбирает HSPA (высокоскоростной пакетный доступ) от 168 Мбит / с, до 24 000 Мбит / с.Буни трин дин с дун мэм нгуен мю тхе бе н с т tм бе ме т ,м, в котором я живу синглТел те, которые мне нравятся Эрикссон.В то же время, антенна MIMO (с несколькими входами и несколькими выходами) работает в режиме реального времени.MIMO s anten d antenng nhiều антенна, которая работает над музыкой.

Тео Эрикссон, cũ cẽ có một buổi trình diễn như vậy được tiến ếởởởở Mobileởởở (((ởở (ởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởởBan Nha)

И список предложений может быть: Ericsson, trình diễn, HSPA, антенна (среди прочих)

1 Ответ

0 голосов
/ 02 февраля 2011

В первом раунде вы можете извлечь все отдельные слова и посмотреть, какие из них есть в вашем списке. Посредством бинарного поиска, если ваш список упорядочен.

Во втором раунде вы извлекаете все пары слов (Hom thứ, thai, Hai, Ericsson cho, cho biết) и т. Д. И ищите эти термины в своем списке.

и т.д.

Все последующие шаги не намного сложнее, чем первый: на первом шаге у вас будет столько же поисков, сколько в вашем тексте различных слов, на втором шаге число словосочетания, которые вы будете искать, вероятно, ближе к общему количеству слов в тексте. Но все же я бы сказал, что сложные слова действительно не сильно усложняют проблему. Может быть целесообразно значительно уменьшить размер списка для второго шага, основываясь на результатах извлечения слова на первом шаге.

Или я думаю, что это слишком просто?

...