Модель сравнения текстов машинного обучения - PullRequest
0 голосов
/ 12 мая 2018

Я создаю модель машинного обучения, которая по существу возвращает правильность одного текста другому. Например; «Кот и собака», «собака и кошка». Модель должна быть в состоянии определить, что некоторые слова («кошка» / «собака») более важны / значимы, чем другие («а» / «the»). Меня не интересуют соединительные слова и т. Д. Я бы хотел сказать модели, какие слова являются наиболее «значимыми» и дать ей возможность определить, насколько правильный текст 1 относится к тексту 2, с «значимым». Слова, имеющие больший вес, чем другие.

Также необходимо уметь распознавать, что фразы не обязательно должны быть в том же порядке. Два вышеприведенных предложения должны быть чрезвычайно высокими.

Какой основной алгоритм я должен использовать для этого? Есть ли альтернатива простому созданию набора данных с тысячами примеров текстов и оценкой правильности?

Я только после широкого обзора / блок-схемы / процесса / алгоритма.

1 Ответ

0 голосов
/ 11 января 2019

Я думаю, TF-IDF может хорошо подойти к вашей проблеме, потому что:

  1. Акцент на словах, встречающихся во многих документах (скажем, 90% ваших предложений / документов содержат слово «и»), значительно меньше, по сути, придавая больший вес фразе, специфичной для конкретного документа (это часть IDF).
  2. Порядок в терминах частоты (TF) не имеет значения, в отличие от методов с использованием скользящих окон и т. Д.
  3. Он очень легкий по сравнению с методами, ориентированными на представление, такими как упомянутый выше.

Большой недостаток : ваши данные, в зависимости от размера корпуса, могут иметь слишком много измерений (то же количество измерений, что и у уникальных слов), вы можете использовать основание / лемматизацию для смягчения этой проблемы до некоторой степени.

Вы можете рассчитать сходство между двумя векторами TF-IDF, используя, например, косинусное сходство.

РЕДАКТИРОВАТЬ: Woops, этот вопрос 8 месяцев, извините за удар, может быть, он будет полезен для кого-то еще, хотя.

...