Я хочу использовать API Google Natural Language для классификации результатов запроса: Классификация контента
Результаты запроса, которые я хочу классифицировать, доступны в формате HTML и в виде обычного текста.Официальная документация гласит, что API принимает оба типа Document.Type.PLAIN_TEXT
и Document.Type.HTML
.
Поскольку в формате HTML есть дополнительные аннотации, такие как, например, <b>important text</b>
, мне интересно, какой формат лучше для достижения наилучшего возможного результата классификации?