Каковы различия между получением всего текста из методов документа? - PullRequest
0 голосов
/ 14 октября 2019

Мне нужно извлечь весь текст из документов, которые могут сильно различаться по размеру и форматированию, но все они являются файлами "docx". Я столкнулся с небольшой проблемой между несколькими подходами.

Подход A: (стандартный подход "context.document.body.text". Т.е.)

Word.run(function(context) {
    var documentBody = context.document.body;
    context.load(documentBody);
    return context.sync()
    .then(function(){
        console.log(documentBody.text);
    })
});

ПодходB: (подход Хуана Б. "getFile / getSlices") Надстройка Word Получить полный текст документа?

Подход A отлично работает на небольших документах и ​​документах, где пользователи применяют более ручной подход кформатирование, такое как маркеры, нумерация и т. д.

т.е. в этом примере документ имеет алфавитный список, и получение тела / текста документа, по-видимому, соответствует границам, подразумеваемым форматированием-

Some important steps in this concept are: 
  a. Clean the immediate work area after work is completed and before inspection or when work cannot continue.
  b. When main gear chocks are not in use, they must be stored outside the safety zone so they do not create a hazard.

Это также хорошо работает на маркированных списках. Но он не работает на больших документах, только возвращая текст из части начала документа.

Подход B хорошо работает и для любого из них, но, вероятно, из-за моего незнания об этом, кажется, объединяет различные фрагменты текста вместеи все форматирование или границы, кажется, потеряны. то есть это комок пули "а". & "б."текст с предыдущей строкой.

Some important steps in this concept are: a. Clean the immediate work area after work is completed and before inspection or when work cannot continue. b. When main gear chocks are not in use, they must be stored outside the safety zone so they do not create a hazard.

Неправильно ли я использую file.getSliceAsync?

...