with open("/home/xxxx/Downloads/DataEnginner9.txt", "r") as f:
for line in f:
print(line)
когда я запускаю этот код, я могу получить только предложения,
Приведенный выше код берет файл и разбивается на предложения и печатает каждую строку, но я хочу, чтобы он идентифицировал абзацы из нескольких файлы, а также создать фрейм данных, который содержит имя файла в первом столбце и соответствующий весь контент во втором столбце той же строки, т. е. пример фрейма данных:
[file1, содержимое файла разбит на параграфы; файл2, содержимое файла2 разделено на абзацы. , , ]
Ниже приведен пример выходных данных, сгенерированных вышеуказанным сценарием из одного файла.
Описание работы
Обязанности
Работать совместно с глобальным Команда для проектирования, разработки
масштабируемых, обслуживаемых и надежных сервисов, которые обрабатывают очень большие объемы
данных с использованием технологий Big Data (100 миллиардов ежедневных показателей, 6 ТБ в день до
сжатие).
Знаком с объектно-ориентированной разработкой, со спецификацией c опыта
хотя бы по одному основному языку OO (знание Java обязательно, а если
возможно java 8). Приятно иметь: Знание функционального программирования.
Выполнение сквозных функций жизненного цикла разработки программного обеспечения
, включая проектирование, разработку, анализ производительности и настройку, оптимизацию,
Тестирование и сопровождение продукта.