Я работаю над моделью кластеризации на основе NLP с использованием DBSCAN и Sentence_vectors. Моя модель работает очень хорошо, и я получаю ожидаемый результат. Но всякий раз, когда поступают новые данные, мне приходится запускать модель на полных данных (текущих + предыдущих). Есть ли способ оптимизировать этот процесс запуска модели снова и снова с текущими + предыдущими данными, а не просто запускать модель на новых данных.
Например:
My current вывод
Index Summary Cluster
1 This is my first program 1
2 This is First program 1
3 I am facing issue in program 2
4 I got issue in program 2
Новые данные
Index Summary
1 My first Program
2 I did not got any issue.
Ожидаемый результат
Index Summary Cluster
1 This is my first program 1
2 This is First program 1
3 My first Program 1
4 I am facing issue in program 2
5 I got issue in program 2
Я получаю ожидаемый результат, но для этого мне нужно объединить текущий файл и предыдущий файл, а затем запустите модель, используя полные данные (которые в моем случае пересекают 300 тыс. записей), и это займет много времени (примерно 1,5 дня). Новые данные содержат только 5k-8k записей.