Вопросы с тегом LSH

0 голосов

0 ответов

проблема производительности Spark LSH MinHash приблизительноСходствоJoin

Я соединяю 2 набора данных, один с 6 миллионами, а другой - с 11 миллионами записей, используя...

vishal / 29 сентября 2019

0 голосов

1 ответ

LSH Binning на лету

Я хочу использовать MinHash LSH для объединения большого количества документов в группы аналогичных...

Raphael / 01 июня 2019

1 голос

0 ответов

Хеширование локальной чувствительности для соответствия сходства

Я экспериментирую с алгоритмом локального хеширования чувствительности, который я хочу использовать...

Michael Lempart / 24 мая 2019

0 голосов

0 ответов

Dedup'ing в Spark (Scala), использующий проблему LSH с собственной приближенностьюJoin ()

Так что я пытаюсь найти и удалить все дубликаты из набора статей, прежде чем делать некоторые НЛП...

CpILL / 20 мая 2019

1 голос

0 ответов

Применить LSH ок. Ближайшие соседи ко всем строкам кадра данных.

Я пытаюсь применить функцию BucketedRandomProjectionLSH model.approxNearestNeighbors(df, key, n) ко...

confused_pandas / 14 мая 2019

0 голосов

0 ответов

Как загрузить модель Annoy из Google Cloud Storage в память без пути?

В настоящее время у меня есть модель Annoy , сохраненная в Google Cloud Storage в общедоступной...

David Albrecht / 22 апреля 2019

0 голосов

0 ответов

Создать бинарную матрицу из черепицы для LSH

У меня есть список документов, где я создал черепицу для всех документов.Сейчас я создаю двоичную...

Hammad Ali / 17 марта 2019

0 голосов

1 ответ

LSH - двоичное матричное представление от черепицы

У меня большой набор новостных статей, если быть точным, 48000.Я сделал ngrams каждой статьи, где n...

Samiul Ehsan / 13 марта 2019

0 голосов

1 ответ

Увеличение хеш-таблиц в MinHashLSH, снижение точности и f1

Я использовал MinHashLSH с приблизительным значением сходства со Scala и Spark 2.4, чтобы найти...

atheodos / 16 февраля 2019

0 голосов

1 ответ

Как оценить minHashLSH в Spark со скалой?

У меня есть набор научных работ, в нем 27770 статей (узлов) и другой файл (файл графика) с...

atheodos / 26 января 2019

0 голосов

1 ответ

Можно ли сохранить объект пользовательского класса в Spark Data Frame как значение столбца?

Я работаю над проблемой обнаружения дубликатов документов с использованием алгоритма LSH. Для...

user2058320 / 12 января 2019

0 голосов

0 ответов

Ошибка «Нет свободного места на устройстве» и сигнал SIGTERM при использовании Spark LSH в EMR

Spark версия-2.3.2 EMR - 5,19,0 8 исполнителей Каждый исполнитель - 5 основных Что я пытаюсь...

dks551 / 10 января 2019

0 голосов

2 ответов

LSH: решить точный поиск ближнего соседа?

Мне любопытно, можно ли найти точное совпадение, используя LSH.На веб-сайте MIT о LSH они заявляют:...

Huyen Vu / 15 декабря 2018

0 голосов

1 ответ

Может ли локально-чувствительное хеширование применяться к точкам динамических данных?

Например, предположим, что у нас есть несколько векторов с разной длиной, и мы хотим измерить...

agtabesh / 28 ноября 2018

0 голосов

1 ответ

Функция, возвращающая ту же переменную, разделенную запятой

Я не понимаю смысла этой функции, возвращающей две одинаковые переменные: def...

spacedustpi / 16 ноября 2018

0 голосов

1 ответ

Java Spark: создание ключевого вектора для aprroxNearestNeighbor в случае категориальных данных

Я пытаюсь найти приблизительных ближайших соседей для категориального набора данных.Для этого я...

Tony / 22 мая 2018

0 голосов

0 ответов

Как уменьшить случайную запись, вызванную приближениями в искре?

Я использую приближение сходства, чтобы найти сходство Жакара между двумя наборами. val dfA =...

Rajjat Dadwal / 10 мая 2018