В исходном фрагменте кода у вас была проблема, что pubb
печатает текст в stdout
, но не возвращает значение. Вместо этого вы должны попробовать:
def pubb():
return 'hello, world'
[Редактировать]:
В отредактированной версии я вижу некоторые другие проблемы.
Выборка работает, поэтому:
>>> source = requests.get('https://en.wikipedia.org/wiki/Willis').text
>>> len(source)
36836
bs4 также правильно находит заголовок:
>>> soup = BeautifulSoup(source,'lxml')
>>> soup.find('h1',{'id':'firstHeading'}).text
'Willis'
bs4 также находит элемент в разделе содержимого (только 1):
>>> len(soup.select("#mw-content-text"))
1
Проблема то, что он не находит никакого контента как такового:
>>> soup.select("#mw-content-text")[0].select("p")[1:3]
[]
И он не находит заголовок:
>>> soup.find("caption",{"class":"fn org"})
>>>
У вас также есть ранее существовавшая проблема, которую вы не возвращают никакого текста из my_function
, поэтому оболочка, которая передает возвращаемое значение этой функции в вызов spacy
, передается None
, что дает вам исключение. Что вы хотите my_function
вернуть?