Google Cloud Natural Language API Классификация открытого текста против HTML - PullRequest
0 голосов
/ 24 мая 2019

Я хочу использовать API Google Natural Language для классификации результатов запроса: Классификация контента

Результаты запроса, которые я хочу классифицировать, доступны в формате HTML и в виде обычного текста.Официальная документация гласит, что API принимает оба типа Document.Type.PLAIN_TEXT и Document.Type.HTML.

Поскольку в формате HTML есть дополнительные аннотации, такие как, например, <b>important text</b>, мне интересно, какой формат лучше для достижения наилучшего возможного результата классификации?

1 Ответ

0 голосов
/ 09 июня 2019

(не уверен, что этот ответ все еще полезен или нет.) Иногда HTML-страницы имеют много неважных фрагментов вокруг основного центрального фрагмента.Они могут легко повлиять на классификацию контента (например, реклама вокруг основного контента).Обработка html в API в основном пытается обрезать эти разделы и работать только с основной частью.Если вашему html-файлу требуется такой тип обработки, было бы лучше использовать тип HTML при вызове API.

...