Я смотрю на Оливера Твиста на английском и французском.Я нашел этот сайт (https://cran.r -project.org / web / packages / tidytext / vignettes / tidytext.html ), который предоставляет код для применения номера главы к строке текста.Когда я применяю его к тексту на английском языке, он работает просто отлично:
library(gutenbergr)
library(dplyr)
library(tidytext)
library(stringr)
twistEN <- gutenberg_download(730)
twistEN <- twistEN[118:nrow(twistEN),]
chaptersEN <- twistEN %>%
mutate(line = row_number(), chapter = cumsum(str_detect(text, regex("^chapter [\\divxlc]", ignore_case = TRUE)))) %>%
ungroup()
Когда я затем смотрю на главыEN, я вижу, что он соответствующим образом применяет номер главы в каждой строке.Где я сталкиваюсь с неприятностями, так это с французским текстом.Вот мой код:
twistFR <- gutenberg_download(16023)
twistFR <- twistFR[123:nrow(twistFR),]
twistFR$text <- iconv(twistFR$text, "latin1", "UTF-8")
chaptersFR <- twistFR %>%
mutate(line = row_number(), chapter = cumsum(str_detect(text, regex("^chaptitre [\\divxlc]", ignore_case = TRUE)))) %>%
ungroup()
Проблема здесь в том, что главы не называются Глава 1 и Глава 2, они называются Chapitre Premier, Chapitre Deuxieme.Я полагаю, что регулярное выражение находит номер главы, посмотрев на число после слова глава (пожалуйста, исправьте меня, если я ошибаюсь), поэтому оно не знает, что делать, когда эта цифра записана в виде слова.Любые идеи о том, как применить номер главы?