Недавние усилия были предприняты для создания скребка для такого рода данных.Как описано в этой статье , он привел к набору данных размером 220 КБ, который можно найти в папке /raw_data
этого репозитория .
. Это может быть уже полезно для вас,но у этого набора данных есть очень общие и редко определенные категории, которые вдохновили этот более новый, лучше организованный набор данных .Он имеет 159 определенных категорий, в общей сложности 1,58 миллиона imgur URL .Они были взяты в основном из каналов Reddit, которые - во всей славе категоризации Reddit - способствовали общему размещению тегов.Репо README
утверждает, что после очистки данных - например, удаления дубликатов / поврежденных / удаленных данных - ваш общий объем должен иметь ~ 500 ГБ и ~ 1,3 миллиона изображений.
Что касается предварительно обученного YOLO, то нет никакой заторможенной работына что.Если вы согласны с зависимостью и стоимостью делегирования этой фильтрации контента в Google Cloud Vision API, они утверждают, что хорошо классифицируют визуальный контент для взрослых .В противном случае, поскольку большинство работ на одну и ту же природу кажутся закрытыми, вам придется обучать свои собственные.