Как обнаружить повторяющиеся «последовательности слов» в слишком многих текстах? - PullRequest
0 голосов
/ 12 июня 2019

Проблема заключается в обнаружении повторяющихся последовательностей слов в большом количестве текстовых фрагментов.Это проблема приближения и эффективности, так как данные, с которыми я хочу работать, огромны.Я хочу присвоить номера текстам при индексации текстов, если они имеют совпадающие части с текстами, которые уже проиндексированы.

Например, если TextB, который я индексирую, теперь имеет совпадающую часть с 2 другими текстами вбаза данных.Я хочу присвоить ему номер, p1.Если эта совпадающая часть будет длиннее, я хочу назначить ей p2 (p2> p1).Если TextB имеет совпадающую часть только с 1 другим текстом, он должен дать p3 (p3

Я могу придумать, как это сделатьэто грубой силой, но мне нужна эффективность.Мой начальник поручил мне узнать о НЛП и найти там решения, и я планирую пройти через эти Стэнфордские видеолекции .

Но у меня есть сомнения относительно того, является ли это правильным подходомпоэтому я хотел спросить ваше мнение.

Пример: Текст 1: «Я хочу стать художником и путешествовать по миру».Текст 2: «Я хочу стать музыкантом».Текст 3: «Путешествуй по миру».Текст 4: «Она хочет путешествовать по миру».

Имея эти тексты, я хочу получить данные, которые выглядят так: - «Я хочу стать», 2 экземпляра, [1,2] - «путешествие»мир ", 3 случая, [1,3,4]

После получения этих данных, наконец, я хочу выполнить эту процедуру (после получения предыдущих данных это может быть тривиально): (Матрица, называемая Aимеет некоторые значения при необходимых индексах. Я определю их после некоторых испытаний.) Группы соответствий имеют числовые значения, которые они получают из матрицы A. Группа 1 = A (4,2)% 4 слова, 2 экземпляра Группа 2 = A (3, 3)% 3 слова, 3 случая

Затем я назначу каждому тексту номер, который является суммой чисел групп, в которых они находятся.

Моя проблема заключается в эффективном формировании этого набора данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...