TF-IDF + задача прогнозирования множественной регрессии - PullRequest
0 голосов
/ 08 января 2019

У меня есть набор данных ~ 10000 строк автомобилей, проданных на портале, похожем на Craigslist. Столбцы включают цену, пробег, нет. о предыдущих владельцах, о том, как скоро автомобиль будет продан (в днях), и, что наиболее важно, текстовое описание, описывающее транспортное средство (например, «безаварийный, регулярно обслуживаемый»).

Я хотел бы выяснить, какие ключевые слова, если они включены, приведут к более быстрой продаже автомобиля. Однако я понимаю, как скоро автомобиль будет продан, также зависит от других факторов, особенно от цены и пробега.

Запуск TfidfVectorizer в scikit-learn привел к очень низкой точности прогноза. Не уверен, стоит ли мне пытаться включить цену, пробег и т. Д. В регрессионную модель, поскольку это кажется довольно сложным. В настоящее время я рассматриваю возможность повторения регрессии TF-IDF для определенного сегмента данных, который достаточно велик (возможно, по цене Toyotas от 10 до 20 тысяч долларов США).

В крайнем случае следует построить две гистограммы: одну из списков транспортных средств, содержащих определенное слово / фразу, а другую для тех, которые этого не делают. Ограничением здесь будет то, что слова, которые я выберу изобразить, будут основаны на моем субъективном мнении.

Есть ли другие способы выяснить, какие ключевые слова потенциально могут быть важными? Заранее спасибо.

1 Ответ

0 голосов
/ 09 января 2019

Как вы упомянули, вы могли бы только многое из основного текста, который показывает количество влияния текста на продажу автомобилей.

Несмотря на то, что модель дает очень низкую точность прогноза, вы могли бы заранее увидеть важность функции, чтобы понять, какие слова определяют продажи.

Включите фразы в ваш векторизатор tfidf, установив для параметра ngram_range значение (1,2) Это может дать вам небольшое представление о том, какие фразы влияют на продажи автомобиля.

Если бы вы также предложили установить norm параметр tfidf как None, чтобы проверить, имеет ли влияние. По умолчанию применяется норма l2.

Разница будет зависеть от модели классификации, которую вы используете. Попробуйте изменить модель также как последний вариант.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...