Без Docker сценарии могут анализировать PDF-файлы, используя tika.
Но, однако, когда я пытаюсь с Docker .., я получаю следующую ошибку для сервер tika не работает: при некотором чтении я попробовал следующее - но ошибка сохраняется.
Может кто-нибудь помочь?
В конце я присоединяю Dockerfile и перечисляю docker работающих контейнеров -
- docker pull apache / tika
- docker run -d -p 9998: 9998 apache / tika
- cat Dockerfile (список в конце)
- docker build -t docker_parser.
docker run docker_parser
docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
8ff9fd3d0a84 docker_parser "python ./scripts/..." 2 days ago Exited (0) 4 minutes ago adoring_mestorf
fdf132926c61 apache/tika "/bin/sh -c 'java ..." 2 days ago Up 6 minutes 0.0.0.0:9998->9998/tcp optimistic_ride
Dockerfile:
FROM python:3
RUN pip3 install --upgrade pip requests
RUN pip3 install python-docx tika numpy pandas
RUN mkdir scripts
RUN mkdir pdfs
RUN mkdir output
ADD runner.py /scripts/
ADD header_parser.py /scripts/
ADD keyword_parser.py /scripts/
ADD *.pdf /pdfs/
CMD [ "python", "./scripts/runner.py" ]
8. Ошибка в коде: remace_parser Упс! Тип ошибки: произошло. Детали: Невозможно запустить сервер Tika. Тип ошибки: в строке: 156