Рассчитать косинусное сходство по конкретным страницам годовых отчетов - PullRequest
0 голосов
/ 01 мая 2019

Я хочу извлечь конкретные страницы из двух годовых отчетов.Затем я хочу вычислить косинусное сходство между этими конкретными страницами двух годовых отчетов.

Я недавно использовал R. Поэтому, по сути, я ничего не знаю о R. Может быть, поэтому я застрял?

Я пытаюсь извлечь годовой отчет BASF:

library(tabulizer)

site <- "https://www.basf.com/cz/documents/BASF_Report_2018.pdf"

extract text from a pdf:

text <- extract_text("BASF_Report_2018.pdf")

cat(text)

Затем я пытаюсь проскользнуть по каждому предложению следующим образом:

strsplit(text, "\n")

, а затем я сделал то же самое для второго годового отчета.После этого я застрял.Я знаю, чтобы вычислить косинусное сходство, мы должны использовать этот код:

feature <- c('feat.1', 'feat.2')

observation <- c('A', 'B', 'C', 'D', 'E')

mRaw <- matrix(c(1,2,2,1.5,1.5,-1.5,-2,-1,-2, 1.5),nrow = 5, byrow = TRUE)

mOr <- matrix(c(0.5,1,1,0.5,0.5,-1,-0.5,-0.5,0,0.5),nrow = 5, byrow = TRUE)

dimnames(mRaw) <- list(observation, feature)

dimnames(mOr) <- list(observation, feature)

mDevOr <- mRaw - mOr

normDevOr <- apply(mDevOr, 1, function(x) {sqrt(sum(x^2))})

mUnit <- mDevOr / normDevOr

mDevSim <- mUnit %*% t(mUnit)

mDegrees <- round(acos(mDevSim) * 180 / pi,0)

mDegrees

Cos(mDegrees)

Но как из того, что я извлекаю, могу ли я вычислить косинусное подобие?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...