AWS Перевести большое HTML на Python - PullRequest
2 голосов
/ 04 мая 2020

У меня есть большой текст в формате HTML, который нужно перевести на разные языки с помощью Amazon Translate API (это должно быть AWS, нет возможности использовать другой сервис).

У Amazon есть ограничение в ~ 5000 символов для перевода за вызов, поэтому мне нужно «разбивать» на предложения большие тексты.

В HTML у меня есть много тегов, таких как DIV, IMG, ссылки, жирный шрифт и итальянский c теги, et c.

Вот мой реальный подход:

  1. Возьмите текст HTML и передайте его через Python HTMLParser
  2. Если открытым тегом является <p>, получите данные (используя функцию handle_data)
  3. «Разделите» данные на предложения, которые содержат меньше 5000 символов
  4. Переведите каждый блок из « менее 5000 символов »и объединить их в один большой переведенный текст
  5. Восстановить HTML с переведенным текстом

Проблема здесь в том, что я не знаю, как восстановить HTML и идентифицируйте теги, такие как <a>, <b>, <i>, <img>, et c. которые находятся внутри <p>.

Любой другой подход или решение?

Если у вас есть пример кода, было бы неплохо, потому что я не знаю, как переопределить handle функции парсер

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...