Tika parser python с Docker, выдавшим RuntimeError: Подробности: Невозможно запустить сервер Tika - PullRequest
0 голосов
/ 09 апреля 2020

Без Docker сценарии могут анализировать PDF-файлы, используя tika.

Но, однако, когда я пытаюсь с Docker .., я получаю следующую ошибку для сервер tika не работает: при некотором чтении я попробовал следующее - но ошибка сохраняется.

Может кто-нибудь помочь?

В конце я присоединяю Dockerfile и перечисляю docker работающих контейнеров -

  1. docker pull apache / tika
  2. docker run -d -p 9998: 9998 apache / tika
  3. cat Dockerfile (список в конце)
  4. docker build -t docker_parser.
  5. docker run docker_parser

  6. docker ps -a


    CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS                     PORTS                    NAMES

    8ff9fd3d0a84        docker_parser       "python ./scripts/..."   2 days ago          Exited (0) 4 minutes ago                            adoring_mestorf

    fdf132926c61        apache/tika         "/bin/sh -c 'java ..."   2 days ago          Up 6 minutes               0.0.0.0:9998->9998/tcp   optimistic_ride
Dockerfile:

    FROM python:3

    RUN pip3 install --upgrade pip requests
    RUN pip3 install python-docx tika numpy pandas

    RUN mkdir scripts
    RUN mkdir pdfs
    RUN mkdir output

    ADD runner.py /scripts/
    ADD header_parser.py /scripts/
    ADD keyword_parser.py /scripts/

    ADD *.pdf /pdfs/

    CMD [ "python", "./scripts/runner.py" ]

8. Ошибка в коде: remace_parser Упс! Тип ошибки: произошло. Детали: Невозможно запустить сервер Tika. Тип ошибки: в строке: 156

...