Имеется ли какой-либо набор данных сентиментального форума для обучения без контроля? - PullRequest
0 голосов
/ 17 октября 2018

Я недавно закончил курс машинного обучения и хотел бы создать инструмент для анализа настроений на форумах, чтобы применять его на форумах, посвященных акциям.

Идея состоит в том, чтобы:

  1. Захватывать (анализ текста) пользователей с их комментариями и оценивать настроение их комментариев (положительное, отрицательное, нейтральное).
  2. Захватчто происходит (фондовый рынок) после этих комментариев, и соответственно назначьте вес пользователю (больший вес, если настроение пользователя точно определено и рынок следует в том же направлении)
  3. Используйте комментарии в качестве инструмента дляпредсказывать направление рынка.

На самом деле, я делаю это сам (обращаю внимание на форумы) плюс мой собственный технический анализ и обязательная юридическая проверка, и это работает очень хорошо для меня.Я просто хотел немного попытаться автоматизировать его и, возможно, даже позволить программе играть с некоторыми из моих учетных записей (сначала торговля бумагами, и если она работает прилично, назначьте немного денег на реальный счет)

Это будетбыть моим первым проектом по машинному обучению (просто как подтверждение концепции), поэтому любые комментарии будут очень любезны.

Самая большая проблема, которую я нахожу, заключается в том, что я хотел бы провести обучение без присмотра, и мне нужен образец набора данных для проведения обучения.

Вопрос: Есть ли какой-нибудь известный набор данных форума-настроения, который можно использовать для обучения без присмотра?

Я нашел несколько наборов данных о чувствах (твиттер, imbd, обзоры amazon), но они очень специфичны для своей ниши (короткие сообщения, фильмы, продукты ...), но я ищу что-то более общее.

1 Ответ

0 голосов
/ 18 октября 2018

Поскольку вы ищете неконтролируемый подход, вы можете использовать любой набор данных, который соответствует вашему «реальному сценарию».Анализ текста и анализ настроений часто адаптированы к конкретной проблеме, поэтому легко начать непосредственно с реальных данных.Наилучший подход - это создать скребок, который будет непосредственно захватывать сообщения форума, которые вы хотите проанализировать.Вы можете легко собрать скребок с помощью Python (beautifulsoup / selenium).В Интернете полно хороших учебников, например: https://www.dataquest.io/blog/web-scraping-tutorial-python/

...