from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
import json,threading
def cleanInput(input):
input=re.sub(' +'," ",input)
input=re.sub('\[[0-9]*\]',"",input)
input=re.sub('\n+'," ",input)
input=bytes(input,'UTF-8')
input=input.decode('ascii','ignore')
cleanInput=[]
print(input)
input=input.split(" ")
for i in input:
i.strip(string.punctuation)
if len(i)>1 or (i.lower()=='a' or i.lower()=='i'):
cleanInput.append(i)
return cleanInput
Проблема, с которой я столкнулся, заключается в том, что при input=input.split(" ")
выдается следующая ошибка AttributeError: 'list' object has no attribute 'split'
, поэтому я напечатал ее, и она выглядит как обычный текст без скобок (то есть []), я пробовал его на разныхбольшие тексты дают ту же ошибку. Как я могу исправить, чтобы я получал только английские слова, 'i', 'a' без каких-либо других символов или символов языка или \n
.