Отфильтруйте URL-адреса, поскольку они не являются естественным языком.Не должно быть слишком сложно написать такой предикат, возможно, будет достаточно чего-то простого, например, str(word).startswith('http')
.Или используйте регулярное выражение:
import re
url_re = re.compile(r'^https?://', re.IGNORECASE)
def is_url(word):
return url_re.search(word) is not None
def keep_row(row):
return not is_url(row['text'])
df = df[df.apply(keep_row, axis=1)]