Nifi с помощью веб-скребка Python - PullRequest
0 голосов
/ 19 октября 2018

Я боролся с проблемой в течение нескольких дней.Моя ситуация такова: я хочу заняться аналитикой hadoop и в реальном времени.Как пример топора, я хочу вычеркнуть некоторые цены от определенного веб-сайта.Скрипт работает на моем ноутбуке, но когда я перемещаю его в NIFI, он начинает давать проблемы.На моем ноутбуке установлена ​​виртуальная среда Raspbarian Desktop.Я использую NIFI для получения данных из ExecuteScript.У меня есть этот код, который работает на моем родном ноутбуке:

    import requests
from bs4 import BeautifulSoup
from html import HTML

page = requests.get('https://web.archive.org/web/20121007172955/https://www.nga.gov/collection/anZ1.htm')

# Create a BeautifulSoup object
soup = BeautifulSoup(page.text, 'html.parser')

Как только я помещаю его в NIFI, он начинает жаловаться на "нет модуля с именем HTML в строке 2. Я знаю, что это проблема модуля, ноу меня просто нет необходимого опыта, чтобы определить основную причину и устранить проблему.

На что обратить внимание:

  1. Я переключился с Python 2.7 на Python 3.5 с помощью альтернативногоmethod.
  2. в компоненте Execute Script, я установил каталог модуля следующим образом: /usr/local/lib/python3.5/dist-packages,/usr/lib/python3/dist-packages

Кто-нибудь знаком с этой средой, чтобы помочь мне с отсутствующими модулями и как это исправить?

...