Я должен определить абзацы из нескольких текстовых файлов (.txt) и создать фрейм данных [абзац 1, «текст файла1 в абзацах»] - PullRequest
0 голосов
/ 12 марта 2020
with open("/home/xxxx/Downloads/DataEnginner9.txt", "r") as f:
    for line in f:
        print(line)

когда я запускаю этот код, я могу получить только предложения,

Приведенный выше код берет файл и разбивается на предложения и печатает каждую строку, но я хочу, чтобы он идентифицировал абзацы из нескольких файлы, а также создать фрейм данных, который содержит имя файла в первом столбце и соответствующий весь контент во втором столбце той же строки, т. е. пример фрейма данных:

[file1, содержимое файла разбит на параграфы; файл2, содержимое файла2 разделено на абзацы. , , ]

Ниже приведен пример выходных данных, сгенерированных вышеуказанным сценарием из одного файла.

Описание работы

Обязанности

Работать совместно с глобальным Команда для проектирования, разработки

масштабируемых, обслуживаемых и надежных сервисов, которые обрабатывают очень большие объемы

данных с использованием технологий Big Data (100 миллиардов ежедневных показателей, 6 ТБ в день до

сжатие).

Знаком с объектно-ориентированной разработкой, со спецификацией c опыта

хотя бы по одному основному языку OO (знание Java обязательно, а если

возможно java 8). Приятно иметь: Знание функционального программирования.

Выполнение сквозных функций жизненного цикла разработки программного обеспечения

, включая проектирование, разработку, анализ производительности и настройку, оптимизацию,

Тестирование и сопровождение продукта.

1 Ответ

0 голосов
/ 16 марта 2020
def txt(filepath):
    df12 = pd.DataFrame(columns=["title","paragraphs"])
    af = []
    with open(filepath) as f:
        lines = f.readlines()

    paragraph = ''
    for line in lines:
        if line.isspace():  # is it an empty line?
            if paragraph:
                af.append(paragraph)
                paragraphs = re.split("\n\n(?=\u2028|[A-Z-0-9])", af)
                paragraph = ''
            else:
                continue
        else:
            paragraph += ' ' + line.strip()
    return paragraphs
...