Какую python библиотеку использовать для качественного анализа данных опроса? - PullRequest
0 голосов
/ 01 апреля 2020

У меня есть набор ответов примерно от 300 человек, заполнивших вопросник. Вопросник касался опыта и поведения пользователей в транспорте publi c. Мы провели опрос для 3 автобусных компаний. Большинство вопросов: «да / нет», «лучший среди 3» или «худший среди 3».

Если возможно, я хочу построить модель, которая предложит лучшую компанию из трех, основываясь на ответах. Вопросы, такие как, «Доступность автобусов, надежность автобусов, предпочтения пользователя и физическое обслуживание шины.

Я ожидаю, что модель проанализирует набор данных и вернет лучшую автобусную компанию, которая будет легко доступны, чистые и ухоженные, надежные, и пользователь предпочтет их.

Кроме того, ответы на вопросы типа «Какой автобус вы предпочитаете?» должны иметь больший вес при принятии решений.

Я довольно новичок в машинном обучении и был бы признателен за предложение о том, какой алгоритм начать с обучения модели.

Ответы [ 2 ]

0 голосов
/ 01 апреля 2020

Могу также добавить, что вы также можете использовать библиотеки NLP, такие как BERT или NLTK, они также имеют модели с предварительной подготовкой.

На этапе предварительной обработки, поскольку у вас есть проблема классификации, будьте осторожны, чтобы сбалансировать свои данные.

0 голосов
/ 01 апреля 2020

Во-первых, вы должны использовать pandas, чтобы выполнить всю очистку данных, такую ​​как удаление нулевых значений и проверка данных.

Во-вторых, если вам нужно визуализировать ваши данные, более популярным выбором будет seaborn или matplotlib.

Наконец, для вашей модели, поскольку ее машинное обучение и не глубокое обучение, scikit-learn - это отличная библиотека для обучения вашей модели

Я бы порекомендовал вам получить больше данных, так как 300 недостаточно. Не в мире машинного обучения.

...