Я очищаю необработанный текст, взятый с веб-сайта, чтобы его можно было разбить на четкие предложения для обучения встраиванию слов. Возьмем один пример:
Xét xử ông Đinh La Thăng và đồng phạm: Luật sư nói tránh thành án lệ</h4></li></ul></div></div><p>Ngày 14-1, tại phiên tòa xét xử sơ thẩm ông <b>Đinh La Thăng</b>, nguyên chủ tịch Hội đồng Quản trị
Я хочу заменить </h4></li></ul></div></div><p>
на '.' и <b>
на пробел '' , поэтому приведенная выше строка станет такой:
Xét xử ông Đinh La Thăng và đồng phạm: Luật sư nói tránh thành án lệ. Ngày 14-1, tại phiên tòa xét xử sơ thẩm ông Đinh La Thăng, nguyên chủ tịch Hội đồng Quản trị
Я пытался использовать красивый суп, но я не знаю, как заменить каждый тип по-разному и эффективно.