У меня очень большой набор данных доменного имени.Приблизительный размер набора данных составляет 1 млн.
Я хочу найти похожие домены, которые дублируются в наборе данных из-за неправильного написания.
Поэтому я использовал косинусное сходство для поиска похожих документов.
dataset = ["example.com","examplecom","googl.com","google.com"........]
tfidf_vectorizer = TfidfVectorizer(analyzer="char")
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
cs = cosine_similarity(tfidf_matrix, tfidf_matrix)
Приведенный выше пример отлично работает для небольшого набора данных, но для большого набора данных он выдает ошибку памяти.
Конфигурация системы:
1) 8 ГБ RAM
2) Установлена 64-битная система и 64-битный Python
3) Процессор i3-3210
Как найти косинусное сходство для большого набора данных?