У меня есть программа, которая просматривает каждую страницу PDF-документа (345 страниц) и выполняет оценку BM25 (аналогично Tf-idf) для каждого предложения каждой страницы.
Чтобы сделать это: 1. Я go через каждую страницу (которая была преобразована в файл .txt), 2. Выполнить все вычисления, 3. Добавить результирующий кадр данных в список, 4 Затем объедините все фреймы данных из этого списка, чтобы собрать все результаты в один фрейм данных для всего документа (который я затем экспортирую как .parquet).
Будучи новичком в Spark, мне интересно, как я могу поступить иначе и использовать способность Sparks распараллелить лечение? Можно ли было избежать всех? 1007 *?