Мне просто нужна часть текста (из предложений), но файлы, кажется, содержат их все, то есть таблицы, диаграммы и т. Д., И несколько файлов - просто параграфы.Это извлечение должно привести меня к следующему шагу их векторизации, если его правильно извлекать, то есть - данные табличных данных заголовков и т. Д., То это решит мою проблему.
пробовал мамонт, операторы печати должныпроверьте то же самое.
rdata=[]
for i in range(len(files)):
print(i)
di=doc(os.path.join(path,files[i]))
temp=di
print(os.path.join(path,files[i]))
print(di)
t=''
for table in temp.tables:
print("K")
for col in table.columns:
print("y")
for cell in col.cells:
print("c")
for paragraph in cell.paragraphs:
t+=' '+(paragraph.text)
print("z")
print(t)
rdata.append(t)
. Ожидаемое - стратегические инициативы по выпуску новых продуктов для удовлетворения потребностей рекламодателей в соответствии с меняющимися рыночными тенденциями в рекламе, таким образом, используя потенциальные возможности для быстрого роста.Компания стремится максимизировать эффект распространения рекламы через DSP «Red» и «FreakOut», используя частную DMP «MOTHER», оригинальное программное обеспечение для анализа, которое анализирует большие данные, такие как данные о доступе к веб-сайту каждого рекламодателя, данные о распространении рекламы,данные о членстве и данные о покупке.Сильные стороны, которые поддерживают ожидаемый сильный рост: «Наибольший объем хранения данных», «Обеспечение размещения качественной рекламы», «Агрессивные инвестиции в создание превосходных алгоритмов» и т. Д.
Результат также включает в себя - заголовки + ошибки ::PackageNotFoundError :: Пакет не найден в 'C: \ Users \ c-amitp \ Documents \ data \ desktop.ini'