использование BERT для суммирования статьи, если для статьи нет метки или ожидаемого итогового результата - PullRequest
0 голосов
/ 20 января 2020

Я работаю над проектом, в котором у меня есть ограничения, которые я не могу использовать для извлечения статьи методами Extractive, и для этого мне нужно использовать BERT. Если бы это было проблемой с маркировкой (обобщение твитов, комментариев, вопросов), где у меня есть соответствующие метки для данных поезда, я бы использовал векторы из BERT в качестве входных данных для Keras слоя внедрения с LSTM и построить модель с метками ввода и вывода. Но проблема в том, что я должен суммировать текст, который обозначен как твиты и комментарии. Есть ли способ (я уверен, что это потому, что меня так конкретно спросили), что я могу использовать BERT, когда у меня есть векторы, соответствующие словарному запасу?

1 Ответ

0 голосов
/ 21 января 2020

У вас есть много документов, которые вы хотели бы обобщить автоматически, но у вас нет данных об обучении. Я предполагаю, что ваши документы на английском языке sh. К счастью, BERT - это модель с предварительной подготовкой, есть даже библиотеки, которые специализированы для суммирования и очень просты в использовании. Вы пробовали, если один из них соответствует вашим целям? Например, bert-extractive-sumrizer :

from summarizer import Summarizer

body = ''' Indian Bank is an Indian state-owned financial services company established in 1907 and headquartered in Chennai, India. 
It has 20,924 employees, 2900 branches with 2861 ATMs and 1014 cash deposit machines and is one of the top performing public sector banks in India. 
Total business of the bank has touched ₹430,000 crore (US$60 billion) as on 31 March 2019. Bank's Information Systems & Security processes certified with ISO27001:2013 standard and is among very few Banks certified worldwide. 
It has overseas branches in Colombo and Singapore including a Foreign Currency Banking Unit at Colombo and Jaffna. It has 227 Overseas Correspondent banks in 75 countries.
Since 1969, the Government of India has owned the bank. As per the announcement made by the Indian Finance Minister Nirmala Sitharaman on 30 August 2019, Indian Bank will be anchor bank for the Kolkata-based Allahabad Bank, and this merger is expected to come on force from 1 April 2020, making it the seventh largest bank in the country. '''


model = Summarizer()
result = model(body, min_length=60)
full = ''.join(result)
print(full)

Вывод:

Indian Bank - индийская государственная компания, предоставляющая финансовые услуги в 1907 году со штаб-квартирой. в Ченнаи, Индия. По состоянию на 31 марта 2019 года общий объем операций банка достиг 430 000 крор (60 млрд. Долл. США).

...