Для пространственной модели en_vectors_web_lg-2.1.0
, которая обучалась на наборе данных Common Crawl , я хотел бы знать, как был проанализирован набор данных.Я понимаю, что корпус содержит необработанные данные веб-страниц, извлечения метаданных и извлечения текста.Отфильтрованы ли HTML-теги, URL-адреса и тому подобное?Кажется, что не хватает документации для обучения этих моделей.Любое понимание будет полезно.
Спасибо!