У меня есть набор вопросов, на которые у меня нет ответа.
1) Удаление списков строк
input:
'item1, item2, \t\t\t item3, \n\n\n \t, item4, , , item5, '
output:
['item1', 'item2', 'item3', 'item4', 'item5']
Что-нибудь более эффективное, чем выполнение следующих действий?
[x.strip() for x in l.split(',') if x.strip()]
2) Очистка / дезинфекция HTML
с сохранением базовых тегов, например, strong, p, br, ...
удаление вредоносных javascript, css и divs
3) Обработка Unicode ...
что бы вы порекомендовали для работы с Unicode, проанализированным в документах?
Есть идеи?:) Спасибо, ребята!