Я хочу извлечь конкретные страницы из двух годовых отчетов.Затем я хочу вычислить косинусное сходство между этими конкретными страницами двух годовых отчетов.
Я недавно использовал R. Поэтому, по сути, я ничего не знаю о R. Может быть, поэтому я застрял?
Я пытаюсь извлечь годовой отчет BASF:
library(tabulizer)
site <- "https://www.basf.com/cz/documents/BASF_Report_2018.pdf"
extract text from a pdf:
text <- extract_text("BASF_Report_2018.pdf")
cat(text)
Затем я пытаюсь проскользнуть по каждому предложению следующим образом:
strsplit(text, "\n")
, а затем я сделал то же самое для второго годового отчета.После этого я застрял.Я знаю, чтобы вычислить косинусное сходство, мы должны использовать этот код:
feature <- c('feat.1', 'feat.2')
observation <- c('A', 'B', 'C', 'D', 'E')
mRaw <- matrix(c(1,2,2,1.5,1.5,-1.5,-2,-1,-2, 1.5),nrow = 5, byrow = TRUE)
mOr <- matrix(c(0.5,1,1,0.5,0.5,-1,-0.5,-0.5,0,0.5),nrow = 5, byrow = TRUE)
dimnames(mRaw) <- list(observation, feature)
dimnames(mOr) <- list(observation, feature)
mDevOr <- mRaw - mOr
normDevOr <- apply(mDevOr, 1, function(x) {sqrt(sum(x^2))})
mUnit <- mDevOr / normDevOr
mDevSim <- mUnit %*% t(mUnit)
mDegrees <- round(acos(mDevSim) * 180 / pi,0)
mDegrees
Cos(mDegrees)
Но как из того, что я извлекаю, могу ли я вычислить косинусное подобие?