Question

Я думаю о том, что является лучшей стратегией для решения следующей проблемы, и я хотел бы узнать ваше представление об этом.

У меня есть две таблицы со следующими столбцами (ID_A, TEXT_A) и (ID_B, TEXT_B) и я должен оценить, используя модель НЛП, сходство текста для каждой пары ID_A, ID_B.

Естественно, такого рода проблемы приводят к огромному количеству пар, учитывая, что это перекрестное соединение.Таким образом, я отказался от идеи создания таблицы со всей информацией, необходимой для выполнения вычислений (ID_A, ID_B, TEXT_A, TEXT_B), и попытался использовать два широковещательных словаря {ID: TEXT}, которые затем используются внутри моей UDF дляполучить текст, соответствующий исследуемой паре.

Однако, поскольку размер двух таблиц со временем увеличивается, по моему мнению, это решение не очень хорошо масштабируется.

Альтернатива состоит в том, чтобы итеративно решить проблему, рассматривая каждый раз фрагменты таблицы и постепенно добавляя результаты в хранилище вывода.

Есть альтернатива?

Спасибо!

Матрица полнотекстового сравнения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Матрица полнотекстового сравнения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов