Question

Я новичок в науке о данных / машинном обучении. Я должен написать веб-сканер и извлечь функции из каждого блога. Эти функции в виде тегов рассказывают об отрасли, конкретных продуктах, инструментах и подобных вещах c. Я сделал часть очистки, но теперь я застрял с идентификацией сущностей. Я занимался обработкой данных (токенизация, очистка данных, удаление стоп-слов / знаков препинания, stemming / лемматизация). на данный момент, что я должен сделать для извлечения функций?

Tdoggo · Answer 1 · 12 марта 2020

Хорошо, так что вам нужно настроить pandas фрейм данных.

В первом столбце вы должны иметь весь текст сайта или блога, процессы, как вы упомянули. В следующих столбцах у вас должен быть один столбец для каждого тега, который вы хотите применить к набору данных, с горячим кодированием.

Затем вам нужно будет заполнить строки, пометив вручную несколько тысяч веб-сайта или сообщений блога, использующих эту горячую кодировку.

Когда вы закончите, вы можете обучить свою машину. Затем любая новая статья, которую вы вставите в нее, машина выдаст вероятность для тегов, принадлежащих этой статье. Вероятно, на github есть много репозиториев с предварительно подготовленными моделями, которые вы можете использовать.

Особенности извлечения из блога новостей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Особенности извлечения из блога новостей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы