Структурированный вывод файла с несколькими записями (XML) в R - PullRequest
0 голосов
/ 04 мая 2020

Я очень новичок в программировании на R и имею некоторые проблемы. У меня есть файл с несколькими записями в форме XML с различными публикациями в нем, и я хочу извлечь некоторые данные оттуда. Как заголовки, текст и идентификаторы. Это то, что я уже сделал. Но выход в Excel не так хорош. Некоторые строчные записи перемещены в неправильный столбец. И что я, наконец, хочу, это чтобы заголовки и текст там указывали c ID. Я думаю и Google много, чтобы найти решение, но я не был успешным. И я надеюсь, что кто-то из этого сообщества сможет мне помочь?

Спасибо за помощь!

Вот код:

# to read the data
xml_1 <- xmlParse("file")

# provides the class of the parsed file, 
class(xml_1)

# extract all PMIDs and put them into a dataframe
apmid <- as.data.frame(xpathSApply(xml_1, '//article-id[@pub-id-type="pmid"]', xmlValue))


# extract all the text, titles and put into a dataframe
atext <- as.data.frame(xpathSApply(xml_1, '//p', xmlValue))
atitle <- as.data.frame(xpathSApply(xml_1, '//title', xmlValue))

# combine the two dataframes with different length of rows and fill the empty rows with NA  
combined <- rbind.fill(atext, atitle, apmid)

# change the column names
names(combined) <- c("Text", "Titles", "PMID")

# exporting the data if the combined dataframe into a csv-file
write.csv(combined, file = "total.csv") 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...