Очистка HTML для данных абзаца с использованием Python - PullRequest
0 голосов
/ 15 октября 2018

Я пытаюсь вычислить значения косинуса для двух документов отчета и могу вычислить его на уровне документа.Теперь я хочу вычислить значения косинусов для разных уровней предметов.Например, я хочу вычислить между пунктом 1 Business Item 2014 и 2015. Аналогично для Item 2 Properties и так далее.Данные получены от SEC Edgar.Я сохранил файлы в виде статических файлов HTML на моем компьютере.

Вот данные за 2014 год

https://www.sec.gov/Archives/edgar/data/10456/000095013709001173/c48741e10vk.htm

Вот данные за 2015 год

https://www.sec.gov/Archives/edgar/data/10456/000119312516479471/0001193125-16-479471-index.htm

Вот код.

from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import TfidfVectorizer

url1 = "baxter2014.html"

url2 = "baxter2015.html"

with open(url1, 'r') as f:
    data1 = f.read()


with open(url2, 'r') as f:
    data2 = f.read()

soup1 = BeautifulSoup(data1)

t1=soup1.text 


soup2 = BeautifulSoup(data2)

t2=soup2.text 

ts=[t1,t2]

vect = TfidfVectorizer(min_df=1)

tfidf1 = vect.fit_transform(ts)

from sklearn.metrics.pairwise import cosine_similarity


cosine_similarity(tfidf1[0:1],tfidf1)

Теперь, как мне вычислить косинус-результат, извлекая одинаковые абзацы из двух документов?Спасибо за ваше время

...