Я думаю о том, что является лучшей стратегией для решения следующей проблемы, и я хотел бы узнать ваше представление об этом.
У меня есть две таблицы со следующими столбцами (ID_A, TEXT_A) и (ID_B, TEXT_B) и я должен оценить, используя модель НЛП, сходство текста для каждой пары ID_A, ID_B.
Естественно, такого рода проблемы приводят к огромному количеству пар, учитывая, что это перекрестное соединение.Таким образом, я отказался от идеи создания таблицы со всей информацией, необходимой для выполнения вычислений (ID_A, ID_B, TEXT_A, TEXT_B), и попытался использовать два широковещательных словаря {ID: TEXT}, которые затем используются внутри моей UDF дляполучить текст, соответствующий исследуемой паре.
Однако, поскольку размер двух таблиц со временем увеличивается, по моему мнению, это решение не очень хорошо масштабируется.
Альтернатива состоит в том, чтобы итеративно решить проблему, рассматривая каждый раз фрагменты таблицы и постепенно добавляя результаты в хранилище вывода.
Есть альтернатива?
Спасибо!