Панды to_csv не работают с HTML в dataframe - PullRequest
0 голосов
/ 10 мая 2019

Я очистил сайт и сохранил исходный код с различных конечных точек в кадре данных с 2 столбцами, URL-адресом и исходным кодом.

При попытке экспортировать этот фрейм данных с помощью метода to_csv, я не могу заставить файл вывода правильно открыться в Excel. Это как-то связано с использованием правильной кодировки или разделителя, но я не уверен, как выбрать тот, который приведет к тому, что выходной CSV будет соответствовать фрейму данных.

Я предполагаю, что проблема в том, что запятые, пробелы, символы новой строки, символы новой строки и т. Д. Все появляются в html, поэтому метод to_csv пытается определить, какие из них являются подлинными разделителями, а какие - только частью html. Я понятия не имею, как это исправить, какие-нибудь идеи?

...