Проблема заключается в обнаружении повторяющихся последовательностей слов в большом количестве текстовых фрагментов.Это проблема приближения и эффективности, так как данные, с которыми я хочу работать, огромны.Я хочу присвоить номера текстам при индексации текстов, если они имеют совпадающие части с текстами, которые уже проиндексированы.
Например, если TextB, который я индексирую, теперь имеет совпадающую часть с 2 другими текстами вбаза данных.Я хочу присвоить ему номер, p1.Если эта совпадающая часть будет длиннее, я хочу назначить ей p2 (p2> p1).Если TextB имеет совпадающую часть только с 1 другим текстом, он должен дать p3 (p3
Я могу придумать, как это сделатьэто грубой силой, но мне нужна эффективность.Мой начальник поручил мне узнать о НЛП и найти там решения, и я планирую пройти через эти Стэнфордские видеолекции .
Но у меня есть сомнения относительно того, является ли это правильным подходомпоэтому я хотел спросить ваше мнение.
Пример: Текст 1: «Я хочу стать художником и путешествовать по миру».Текст 2: «Я хочу стать музыкантом».Текст 3: «Путешествуй по миру».Текст 4: «Она хочет путешествовать по миру».
Имея эти тексты, я хочу получить данные, которые выглядят так: - «Я хочу стать», 2 экземпляра, [1,2] - «путешествие»мир ", 3 случая, [1,3,4]
После получения этих данных, наконец, я хочу выполнить эту процедуру (после получения предыдущих данных это может быть тривиально): (Матрица, называемая Aимеет некоторые значения при необходимых индексах. Я определю их после некоторых испытаний.) Группы соответствий имеют числовые значения, которые они получают из матрицы A. Группа 1 = A (4,2)% 4 слова, 2 экземпляра Группа 2 = A (3, 3)% 3 слова, 3 случая
Затем я назначу каждому тексту номер, который является суммой чисел групп, в которых они находятся.
Моя проблема заключается в эффективном формировании этого набора данных.