как получить только английский символ - PullRequest
0 голосов
/ 01 декабря 2018
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
import json,threading 

def cleanInput(input):
    input=re.sub(' +'," ",input)
    input=re.sub('\[[0-9]*\]',"",input)
    input=re.sub('\n+'," ",input)
    input=bytes(input,'UTF-8')
    input=input.decode('ascii','ignore')
    cleanInput=[]
    print(input)
    input=input.split(" ")
    for i in input:
        i.strip(string.punctuation)
        if len(i)>1 or (i.lower()=='a' or i.lower()=='i'):
            cleanInput.append(i)
    return cleanInput

Проблема, с которой я столкнулся, заключается в том, что при input=input.split(" ") выдается следующая ошибка AttributeError: 'list' object has no attribute 'split', поэтому я напечатал ее, и она выглядит как обычный текст без скобок (то есть []), я пробовал его на разныхбольшие тексты дают ту же ошибку. Как я могу исправить, чтобы я получал только английские слова, 'i', 'a' без каких-либо других символов или символов языка или \n.

...