Есть ли функция для очистки разделов заметок слайдов Powerpoint? - PullRequest
1 голос
/ 29 апреля 2019

Я пытаюсь прочитать ~ 100 слайдов PowerPoint и прочитать разделы примечаний каждого слайда. Я постараюсь разобраться в тексте и напишу в csv после факта, но сначала нужно получить заметки в работоспособном формате.

Я сейчас работаю с пакетом officer, функцией read_pptx, но я открыт для любых пакетов, которые необходимы. Кажется, он не тянет на себя заметки, но я могу просто смотреть на это неправильно.

Чтобы показать немного того, что я пробовал ->

library(officer)

ppt_var <- read_pptx('test_presentation.pptx')
view(ppt_var)

В идеале, я мог бы получить текст каждого слайда с примечаниями, добавленный к отдельным переменным для записи в CSV. Я уверен, что смогу справиться с манипуляциями, как только прочитаю заметки, но, похоже, не смог разобраться с этой частью.

Спасибо за любые указатели или поддержку!

1 Ответ

1 голос
/ 29 апреля 2019

Как это сделать, показано в коде здесь: https://github.com/davidgohel/officer/issues/117.

Следующее основано на этом коде:

library(magrittr)
library(officer)
library(xml2)

p <- read_pptx("mypresentation.pptx")
notes_dir <- file.path(p$package_dir, "ppt", "notesSlides")
files <- list.files(pattern = ".xml$", path = notes_dir, full.names = TRUE)

Notes <- lapply(files,
 . %>% 
   read_xml %>%
   xml_find_all("//a:t") %>%
   xml_text
)
...