Я читал о НЛП столько, сколько мог, и искал здесь, но не нашел ничего, что, по-видимому, отвечало бы именно тому, что я пытаюсь сделать. Я довольно новичок в NLP, но раньше у меня была небольшая экспозиция, так что я получил процессор NLP, который я использую, работая там, где я могу извлечь POS из текста.
Я просто работаю с небольшим образцом документа, а затем с одной «входной фразой», для которой я в основном пытаюсь найти соответствие. Код, который я написал до сих пор, в основном делает это:
- берет входную фразу и «Searchee (документ, в котором выполняется поиск)» и разбивает их на списки отдельных слов, а затем получает POS для каждого слова. Пользователь также вводит один kewyord, который находится во входной фразе (и должен быть в поиске документа)
- в обоих списках выполняется поиск ключевого слова, введенного пользователем, а затем, для первого места, где это ключевое слово находится в каждом документе, берется заданное количество слов до и после (например, 5). Они помещаются в набор данных для обработки, поэтому, если одна статья имела:
ключевое слово: футбол
«Многие виды спорта - это весело, футбол - отличный, но очень физический вид спорта».
- Тогда мой процесс усек бы это до «весело, футбол это»
Моя цель состоит в том, чтобы сравнить фрагменты, такие как «это весело, футбол - это», по сходству, насколько они могут быть использованы в аналогичном контексте и т. Д.
Мне интересно, может ли кто-нибудь указать мне правильное направление в отношении шаблонов, которые могут быть использованы для этого, алгоритмов и т. Д. Приведенный выше пример является упрощенным, просто чтобы дать представление, но я планирую сделать это сложнее, если я найду подходящее место, чтобы узнать больше об этом. Спасибо за любую информацию