Кластеризация новых данных с использованием обученной модели DBSCAN - PullRequest
0 голосов
/ 06 мая 2020

Я работаю над моделью кластеризации на основе NLP с использованием DBSCAN и Sentence_vectors. Моя модель работает очень хорошо, и я получаю ожидаемый результат. Но всякий раз, когда поступают новые данные, мне приходится запускать модель на полных данных (текущих + предыдущих). Есть ли способ оптимизировать этот процесс запуска модели снова и снова с текущими + предыдущими данными, а не просто запускать модель на новых данных.

Например:

My current вывод

Index  Summary                      Cluster
  1    This is my first program       1
  2    This is First program          1
  3    I am facing issue in program   2
  4    I got issue in program         2

Новые данные

Index   Summary             
1       My first Program   
2       I did not got any issue.

Ожидаемый результат

Index  Summary                      Cluster
  1    This is my first program       1
  2    This is First program          1
  3    My first Program               1
  4    I am facing issue in program   2
  5    I got issue in program         2

Я получаю ожидаемый результат, но для этого мне нужно объединить текущий файл и предыдущий файл, а затем запустите модель, используя полные данные (которые в моем случае пересекают 300 тыс. записей), и это займет много времени (примерно 1,5 дня). Новые данные содержат только 5k-8k записей.

...