Обнаружение вредоносных веб-страниц с помощью машинного обучения - PullRequest
0 голосов
/ 24 июня 2018

Я ищу разработку приложения, которое будет обнаруживать вредоносные веб-страницы. Я думаю о расширении браузера. Итак, я начал искать некоторые исследовательские работы и нашел следующую.

Подход глубокого обучения к обнаружению вредоносного кода Javascript - Wang et. аль

Хотя это кажется достаточно хорошим, я не могу найти ссылку на исходный код. Как я могу получить исходный код для исследовательской работы?

Есть ли еще какие-нибудь многообещающие документы с исходным кодом, которые я могу использовать?

1 Ответ

0 голосов
/ 24 июня 2018

Эта статья о том, как обучать модель, которая является сердцем систем машинного обучения. «Исходный код» - это, как правило, стандартный движок, такой как TensorFlow. Что вам нужно, так это большой набор помеченных примеров вредоносного javascript и невредоносного javascript. Сбор, маркировка и построение модели на основе этого корпуса - это проект, который вы описываете; исполняемый исходный код является второстепенной деталью, и вы, вероятно, будете использовать TensorFlow, по крайней мере, для начала, потому что все используют TensorFlow. («Используйте TensorFlow для построения системы ML» - это то же самое, что сказать «используйте C для построения операционной системы». Оно не предназначено для описания того, как на самом деле создать эту вещь; создание этой вещи - это серьезная задача.)

Основной артефакт в ссылочной статье - «более 27 000 помеченных образцов». Я не верю, что они выпустили этот корпус (не говоря уже об обученной модели) для публики. В документе описывается, как вы будете строить собственную модель на основе ваших собственных образцов.

Если вас это интересует, начните с учебников по TensorFlow. Узнайте, как классифицировать цветы (потому что это то, с чего все начинают). Затем узнайте, как классифицировать компьютерные языки (Java против Swift против Haskell). С этим опытом я считаю, что эта статья будет иметь больше смысла для вас. (Он все еще довольно продвинут, но, по крайней мере, вы будете знать, как выглядит ваша проблема.)

...