Лучшая практика PySpark для автоматизации лечения l oop - PullRequest
0 голосов
/ 19 апреля 2020

У меня есть программа, которая просматривает каждую страницу PDF-документа (345 страниц) и выполняет оценку BM25 (аналогично Tf-idf) для каждого предложения каждой страницы.

Чтобы сделать это: 1. Я go через каждую страницу (которая была преобразована в файл .txt), 2. Выполнить все вычисления, 3. Добавить результирующий кадр данных в список, 4 Затем объедините все фреймы данных из этого списка, чтобы собрать все результаты в один фрейм данных для всего документа (который я затем экспортирую как .parquet).

Будучи новичком в Spark, мне интересно, как я могу поступить иначе и использовать способность Sparks распараллелить лечение? Можно ли было избежать всех? 1007 *?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...