правильность индексации подобия текста - PullRequest
0 голосов
/ 08 октября 2018

Я работаю с spark2.3 и использую следующие библиотеки из pyspark.sql.functions import regexp_extract, monotonically_increasing_id для вычисления косинусного сходства между двумя документами.У меня есть два кадра данных, содержащих текст, каждая строка представляет документ.Я индексирую каждую строку с возрастающим идентификатором, используя monotically_incrasing_id.В результате я хочу определить наиболее похожие строки, но я также хочу убедиться в правильности индексации.

Моя текущая проблема заключается в том, что после выполнения всех операций (которые имеют дело с различными умножениями матриц) я сохраняюотслеживать правильное индексирование на каждом шаге, но, когда я присоединяю результирующий кадр данных к исходным текстовым каталогам (используя соответствующий индекс), я получаю смешанные ответы, и индекс также дает разные результаты, когда я фильтрую исходный кадр данных (с одним из полученных идентификаторов) Я получаю правильную строку обратно, но когда я либо .show() или .collect() исходные каталоги, идентификаторы снова путаются.

Is .show() повторная выборка исходного кадра данныхи это переназначение возрастающего_идентификатора?Может ли что-то происходить внутри в искре?Как я могу обеспечить согласованность индекса с самого начала?

С уважением

...