Question

У меня есть программа, которая просматривает каждую страницу PDF-документа (345 страниц) и выполняет оценку BM25 (аналогично Tf-idf) для каждого предложения каждой страницы.

Чтобы сделать это: 1. Я go через каждую страницу (которая была преобразована в файл .txt), 2. Выполнить все вычисления, 3. Добавить результирующий кадр данных в список, 4 Затем объедините все фреймы данных из этого списка, чтобы собрать все результаты в один фрейм данных для всего документа (который я затем экспортирую как .parquet).

Будучи новичком в Spark, мне интересно, как я могу поступить иначе и использовать способность Sparks распараллелить лечение? Можно ли было избежать всех? 1007 *?

Лучшая практика PySpark для автоматизации лечения l oop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Лучшая практика PySpark для автоматизации лечения l oop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы