Как я могу разобрать текст из файлов форматированного текста, таких как (.do c, .pages, .docx, et c.) - PullRequest
0 голосов
/ 11 февраля 2020

Как мне разобрать текст из файла docx?

Я уже пробовал Data(contentsOf:) и String(contentsOf:), но ничего не получалось.

1 Ответ

1 голос
/ 12 февраля 2020

Это нельзя сделать с помощью Data(contentsOf:) или String(contentsOf:), поскольку формат .docx - это сжатый формат, состоящий из xml и других файлов. Чтобы разобрать текст из файла .docx, необходимо распаковать файл do c. В моем случае я использовал ZIPFoundation , чтобы распаковать документ. Выполните синтаксический анализ файла с именем word/document.xml в пути извлечения, используя любой анализатор XML, и вы сможете получить текст из документа.

Источники:

Преобразование файлов Docx в текст в Swift

Чтение или преобразование слов .do c файлов iOS

...