Мой CSV-файл выглядит следующим образом:
CAR NAME, ATTENTION GRABBER, KEY SPECS, DESCRIPTION, URL, PRICE
Car Example 1, Amazing Car, |2020 (20 Reg)|SUV|2000 miles|600bhp|Automatic|, This car is amazing, https://www.example.co.uk/car-1, £60000
Car Example 2, Huge Spec + Carbon pack, |2004 (54 Reg)|Estate|67000 miles|2.8|350bhp|Petrol|, Only 67k miles! Massive dent in side!, https://www.example.co.uk/car-2, £800
Car Example 3, Learner Car, |2001 (51 Reg)|Hatchback|180000 miles|1.2|52bhp|Manual|Petrol|7 Owners|, Failed MOT needs work sold as spares or repairs, https://www.example.co.uk/car-3, £175
.
.
.
Car Example 14999, Full Electric, |2018 (18 Reg)|SUV|23000 miles|591bhp|, Rare chance to purchase this Electric Vehicle book your viewing now! On 0330 1234 567, https://www.example.co.uk/car-14999, £90000
Поэтому я хочу использовать столбцы 1, 2, 3 и 4 для прогнозирования столбца 6. Я понимаю, что в TensorFlow вам нужно дополнить данные так что каждая из записей, разделенных запятыми, содержит одинаковое количество слов. Таким образом, имея в виду, в моем примере я бы добавил / ограничил столбец от 1 до 3 слов, от 2 до 5 слов, от 3 до 15 слов и от 4 до 20 слов. Как именно я это сделаю?
Вот что у меня есть:
import pandas as pd
import numpy as np
import tensorflow as tf
df = pd.read_csv("data_utf-8.csv")
train = df.sample(frac=0.8)
test = df.drop(train.index)
train_car_name = train.iloc[:,0:1]
train_attention_grabber = train.iloc[:,1:2]
train_key_specs = train.iloc[:,2:3]
train_description = train.iloc[:,3:4]
train_url = train.iloc[:,4:5]
train_price = train.iloc[:,5:6]
train_car_name_text = ' '.join(train_car_name.data).lower()
Я не могу использовать последнюю строчку кода выше, так как она не будет работать на кадрах данных. как это обойти?