Question

У меня есть большой текст в формате HTML, который нужно перевести на разные языки с помощью Amazon Translate API (это должно быть AWS, нет возможности использовать другой сервис).

У Amazon есть ограничение в ~ 5000 символов для перевода за вызов, поэтому мне нужно «разбивать» на предложения большие тексты.

В HTML у меня есть много тегов, таких как DIV, IMG, ссылки, жирный шрифт и итальянский c теги, et c.

Вот мой реальный подход:

Возьмите текст HTML и передайте его через Python HTMLParser
Если открытым тегом является <p>, получите данные (используя функцию handle_data)
«Разделите» данные на предложения, которые содержат меньше 5000 символов
Переведите каждый блок из « менее 5000 символов »и объединить их в один большой переведенный текст
Восстановить HTML с переведенным текстом

Проблема здесь в том, что я не знаю, как восстановить HTML и идентифицируйте теги, такие как <a>, <b>, <i>, <img>, et c. которые находятся внутри <p>.

Любой другой подход или решение?

Если у вас есть пример кода, было бы неплохо, потому что я не знаю, как переопределить handle функции парсер

Заранее спасибо.

AWS Перевести большое HTML на Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

AWS Перевести большое HTML на Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов