Как проанализировать загруженный пользователем файл pdf / doc (через среду Flask) с помощью библиотеки textract без локального сохранения файла? - PullRequest
0 голосов
/ 28 мая 2018

Я пытаюсь изменить этот анализатор резюме https://github.com/bjherger/ResumeParser, создав для него API.Я использовал колбу для создания API, где пользователи могут загружать файлы PDF / DOC.Вот код для фреймворка:

UPLOAD_FOLDER = 'user_uploads'
ALLOWED_EXTENSIONS = set(['txt', 'pdf','doc','docx', 'png', 'jpg', 'jpeg', 
'gif'])

app = Flask(__name__)
app.config['UPLOAD_FOLDER'] = UPLOAD_FOLDER

def allowed_file(filename):
    return filename[-3:].lower() in ALLOWED_EXTENSIONS

@app.route('/', methods=['GET', 'POST'])
def upload_file():

if request.method == 'POST':

    file = request.files['file']
    print type(file)
    if file and allowed_file(file.filename):
        print "File uploaded successfully. File name is" +file.filename

После получения пользовательской загрузки я буду использовать метод textract.process () из библиотеки textract.Однако, объект 'file' является объектом werkzeug.datastructures.FileStorage, который не может быть проанализирован textract.

Есть ли способ преобразовать объект FileStorage обратно в pdf / doc, не сохраняя файл на сервере, чтобы textract мог его проанализировать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...