У меня есть набор данных ~ 10000 строк автомобилей, проданных на портале, похожем на Craigslist. Столбцы включают цену, пробег, нет. о предыдущих владельцах, о том, как скоро автомобиль будет продан (в днях), и, что наиболее важно, текстовое описание, описывающее транспортное средство (например, «безаварийный, регулярно обслуживаемый»).
Я хотел бы выяснить, какие ключевые слова, если они включены, приведут к более быстрой продаже автомобиля. Однако я понимаю, как скоро автомобиль будет продан, также зависит от других факторов, особенно от цены и пробега.
Запуск TfidfVectorizer в scikit-learn привел к очень низкой точности прогноза. Не уверен, стоит ли мне пытаться включить цену, пробег и т. Д. В регрессионную модель, поскольку это кажется довольно сложным. В настоящее время я рассматриваю возможность повторения регрессии TF-IDF для определенного сегмента данных, который достаточно велик (возможно, по цене Toyotas от 10 до 20 тысяч долларов США).
В крайнем случае следует построить две гистограммы: одну из списков транспортных средств, содержащих определенное слово / фразу, а другую для тех, которые этого не делают. Ограничением здесь будет то, что слова, которые я выберу изобразить, будут основаны на моем субъективном мнении.
Есть ли другие способы выяснить, какие ключевые слова потенциально могут быть важными? Заранее спасибо.