Как извлечь текст в структурированном формате из файлов .docx, используя python, чтобы его можно было использовать для целей НЛП? - PullRequest
0 голосов
/ 27 июня 2019

Мне просто нужна часть текста (из предложений), но файлы, кажется, содержат их все, то есть таблицы, диаграммы и т. Д., И несколько файлов - просто параграфы.Это извлечение должно привести меня к следующему шагу их векторизации, если его правильно извлекать, то есть - данные табличных данных заголовков и т. Д., То это решит мою проблему.

пробовал мамонт, операторы печати должныпроверьте то же самое.

rdata=[]
for i in range(len(files)):
    print(i)
    di=doc(os.path.join(path,files[i]))
    temp=di
    print(os.path.join(path,files[i]))
    print(di)
    t=''
    for table in temp.tables:
        print("K")
        for col in table.columns:
            print("y")
            for cell in col.cells:
                print("c")
                for paragraph in cell.paragraphs:
                    t+=' '+(paragraph.text)
                    print("z")
    print(t)
    rdata.append(t)

. Ожидаемое - стратегические инициативы по выпуску новых продуктов для удовлетворения потребностей рекламодателей в соответствии с меняющимися рыночными тенденциями в рекламе, таким образом, используя потенциальные возможности для быстрого роста.Компания стремится максимизировать эффект распространения рекламы через DSP «Red» и «FreakOut», используя частную DMP «MOTHER», оригинальное программное обеспечение для анализа, которое анализирует большие данные, такие как данные о доступе к веб-сайту каждого рекламодателя, данные о распространении рекламы,данные о членстве и данные о покупке.Сильные стороны, которые поддерживают ожидаемый сильный рост: «Наибольший объем хранения данных», «Обеспечение размещения качественной рекламы», «Агрессивные инвестиции в создание превосходных алгоритмов» и т. Д.

Результат также включает в себя - заголовки + ошибки ::PackageNotFoundError :: Пакет не найден в 'C: \ Users \ c-amitp \ Documents \ data \ desktop.ini'

...