Question

Я хотел сделать текст читаемым для BERT-вложений, вставив токены [CLS] и [SEP].Я разбил свой текст на токены, поэтому у меня есть список с каждым словом и знаком препинания в качестве элемента, однако я не знаю, как именно я могу добавлять элементы после каждого вхождения '.'в моем тексте.

Кто-нибудь знает, что я могу сделать?Или вы знаете, есть ли что-то, что готовит BERT-читабельные тексты?

amin_nejad · Answer 1 · 08 июля 2019

Я думаю, что это отвечает на ваш вопрос:

https://github.com/google-research/bert#tokenization

Как уже упоминалось, вы можете увидеть, как они сделали это в run_classifier.py и extract_features.py.

Однако вы также можете выполнить то, что хотите, используя регулярные выражения (регулярные выражения). В Python это будет выглядеть примерно так:

import re

regex = r"[.]"
test_str = "Hello . BERT . Goodbye ."
subst = ". [SEP]"

result = re.sub(regex, subst, test_str)

if result:
    print (result)

Как я могу выполнить действие для всех вхождений элемента в списке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу выполнить действие для всех вхождений элемента в списке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов