Как выполняется анализ пространственных моделей, обученных на наборе данных Common Crawl? - PullRequest
0 голосов
/ 01 мая 2019

Для пространственной модели en_vectors_web_lg-2.1.0, которая обучалась на наборе данных Common Crawl , я хотел бы знать, как был проанализирован набор данных.Я понимаю, что корпус содержит необработанные данные веб-страниц, извлечения метаданных и извлечения текста.Отфильтрованы ли HTML-теги, URL-адреса и тому подобное?Кажется, что не хватает документации для обучения этих моделей.Любое понимание будет полезно.

Спасибо!

...