У меня есть большой текст в формате HTML, который нужно перевести на разные языки с помощью Amazon Translate API (это должно быть AWS, нет возможности использовать другой сервис).
У Amazon есть ограничение в ~ 5000 символов для перевода за вызов, поэтому мне нужно «разбивать» на предложения большие тексты.
В HTML у меня есть много тегов, таких как DIV, IMG, ссылки, жирный шрифт и итальянский c теги, et c.
Вот мой реальный подход:
- Возьмите текст HTML и передайте его через Python HTMLParser
- Если открытым тегом является
<p>
, получите данные (используя функцию handle_data
) - «Разделите» данные на предложения, которые содержат меньше 5000 символов
- Переведите каждый блок из « менее 5000 символов »и объединить их в один большой переведенный текст
- Восстановить HTML с переведенным текстом
Проблема здесь в том, что я не знаю, как восстановить HTML и идентифицируйте теги, такие как <a>, <b>, <i>, <img>
, et c. которые находятся внутри <p>
.
Любой другой подход или решение?
Если у вас есть пример кода, было бы неплохо, потому что я не знаю, как переопределить handle
функции парсер
Заранее спасибо.