В настоящее время у меня возникают проблемы при наборе текста, потому что, согласно top
, мой процессор на 100%, а память на 85,7%, и все это занято Python.
Почему?Потому что мне пришлось пройти через 250-мегабайтный файл, чтобы удалить разметку.250 мег, вот и все!Я манипулировал этими файлами в python со многими другими модулями и вещами;BeautifulSoup - первый код, который дает мне проблемы с чем-то таким маленьким.Как почти 4 гигабайта оперативной памяти используются для манипулирования 250 мегабайтами html?
Однострочник, который я нашел (на stackoverflow) и использовал, был следующим:
''.join(BeautifulSoup(corpus).findAll(text=True))
Кроме того, этокажется, удаляет все, НО разметка, которая является своего рода противоположностью того, что я хочу сделать.Я уверен, что BeautifulSoup тоже может это сделать, но проблема скорости остается.
Есть ли что-нибудь, что будет делать что-то подобное (удалить разметку, оставить текст надежно ) и НЕ потребовать Cray для запуска?