Особенности извлечения из блога новостей - PullRequest
0 голосов
/ 12 марта 2020

Я новичок в науке о данных / машинном обучении. Я должен написать веб-сканер и извлечь функции из каждого блога. Эти функции в виде тегов рассказывают об отрасли, конкретных продуктах, инструментах и ​​подобных вещах c. Я сделал часть очистки, но теперь я застрял с идентификацией сущностей. Я занимался обработкой данных (токенизация, очистка данных, удаление стоп-слов / знаков препинания, stemming / лемматизация). на данный момент, что я должен сделать для извлечения функций?

1 Ответ

0 голосов
/ 12 марта 2020

Хорошо, так что вам нужно настроить pandas фрейм данных.

В первом столбце вы должны иметь весь текст сайта или блога, процессы, как вы упомянули. В следующих столбцах у вас должен быть один столбец для каждого тега, который вы хотите применить к набору данных, с горячим кодированием.

Затем вам нужно будет заполнить строки, пометив вручную несколько тысяч веб-сайта или сообщений блога, использующих эту горячую кодировку.

Когда вы закончите, вы можете обучить свою машину. Затем любая новая статья, которую вы вставите в нее, машина выдаст вероятность для тегов, принадлежащих этой статье. Вероятно, на github есть много репозиториев с предварительно подготовленными моделями, которые вы можете использовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...