Извлекайте текст со страницы документа Word - PullRequest
0 голосов
/ 23 января 2019

Я работаю на сайте адвоката.Я хочу управлять документом, загруженным в систему.Я хочу получить содержимое страницы документа в виде массива php.

 $array = [
       [0] => 'Page 1 Content',
       [1] => 'Page 2 Content',
       [2] => 'Page 3 Content',
    ];

Я пробовал следовать, но не получаю вывод в виде массива

<?php
    include_once("DocxConversion.php");

    $docObj = new DocxConversion("sample.docx");
    $docText = $docObj->convertToText(0);

    echo "<pre>"; print_r($docText);
?>

Показывается весь текстдокумент как текст, а не как массив.Любая помощь будет оценена.Заранее спасибо.

1 Ответ

0 голосов
/ 23 января 2019

Это невозможно, поскольку Word не сохраняет информацию подкачки для контента, который не содержит «жестких разрывов страниц». (Едва ли можно получить контент по странице, когда документ открыт в приложении Word - объектная модель даже не имеет объекта Page.)

Если вам нужно получить информацию постранично, документ должен быть сохранен в формате PDF, где подкачка статична, а информация сохраняется в файле.

Word - это текстовый процессор. В отличие от программного обеспечения для верстки страниц, контент не назначается «объекту страницы». Это «поток» текстовых символов, который приложение Word размещает динамически при открытии и редактировании документа в Word. Многие факторы способствуют динамической автоматической разметке: принтер, драйвер принтера, характеристики шрифта и т. Д. Это означает, что оптимальная разметка может отличаться при открытии документа на других машинах. Таким образом, информация подкачки (и разрыв строки) не сохраняется в документе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...