Я пытаюсь вычислить значения косинуса для двух документов отчета и могу вычислить его на уровне документа.Теперь я хочу вычислить значения косинусов для разных уровней предметов.Например, я хочу вычислить между пунктом 1 Business Item 2014 и 2015. Аналогично для Item 2 Properties и так далее.Данные получены от SEC Edgar.Я сохранил файлы в виде статических файлов HTML на моем компьютере.
Вот данные за 2014 год
https://www.sec.gov/Archives/edgar/data/10456/000095013709001173/c48741e10vk.htm
Вот данные за 2015 год
https://www.sec.gov/Archives/edgar/data/10456/000119312516479471/0001193125-16-479471-index.htm
Вот код.
from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import TfidfVectorizer
url1 = "baxter2014.html"
url2 = "baxter2015.html"
with open(url1, 'r') as f:
data1 = f.read()
with open(url2, 'r') as f:
data2 = f.read()
soup1 = BeautifulSoup(data1)
t1=soup1.text
soup2 = BeautifulSoup(data2)
t2=soup2.text
ts=[t1,t2]
vect = TfidfVectorizer(min_df=1)
tfidf1 = vect.fit_transform(ts)
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf1[0:1],tfidf1)
Теперь, как мне вычислить косинус-результат, извлекая одинаковые абзацы из двух документов?Спасибо за ваше время