Удаление строк DataFrame путем сравнения дат - PullRequest
0 голосов
/ 04 марта 2019

У меня есть набор данных, и я хочу, чтобы строки были только во временном диапазоне.Я поместил все хорошие строки в объект Series.Но когда я переназначаю этот объект объекту DataFrame, я получаю значения NaT:

код:

def get_tweets_from_range_in_csv():
    csvfile1 = "results_dataGOOGL050"
    df1 = temp(csvfile1)


def temp(csvfile):
    tweetdats = []
    d = pd.read_csv(csvfile + ".csv", encoding='latin-1')
    start = datetime.datetime.strptime("01-01-2018", "%d-%m-%Y")
    end = datetime.datetime.strptime("01-06-2018", "%d-%m-%Y")
    for index, current_tweet in d['Date'].iteritems():
        date_tw = datetime.datetime.strptime(current_tweet[:10], "%Y-%m-%d")
        if start <= date_tw <= end:
            tweetdats.append(date_tw)
        else:
            d.drop(index, inplace=True)
    d = d.drop("Likes", 1)
    d = d.drop("RTs", 1)
    d = d.drop("Sentiment", 1)
    d = d.drop("User", 1)
    d = d.drop("Followers", 1)
    df1['Date'] = pd.Series(tweetdats)
    return d

Вывод твитов:

tweetdats
Out[340]: 
[datetime.datetime(2018, 1, 30, 0, 0),
 datetime.datetime(2018, 4, 1, 0, 0),
 datetime.datetime(2018, 4, 1, 0, 0),
 datetime.datetime(2018, 4, 1, 0, 0),
 datetime.datetime(2018, 1, 5, 0, 0),
 datetime.datetime(2018, 1, 5, 0, 0),
 datetime.datetime(2018, 1, 8, 0, 0),
 datetime.datetime(2018, 1, 20, 0, 0),
 datetime.datetime(2018, 1, 22, 0, 0),
 datetime.datetime(2018, 1, 5, 0, 0)]

1 Ответ

0 голосов
/ 04 марта 2019

Вам не нужно перебирать свой фрейм данных с циклом for, чтобы выбрать строки в интересующем временном диапазоне.

Предположим, что у вашего исходного фрейма данных df есть «Дата»столбец, содержащий даты в формате datetime;затем вы можете просто создать новый фрейм данных new_df:

new_df=df[(pd.to_datetime(df.time) > start) & (pd.to_datetime(self.df.time) < end)] 

Таким образом, вам не нужно копировать и вставлять «хорошие» строки в серии, а затем переназначать их в фрейм данных.

Ваша temp функция будет выглядеть так:

def temp(csvfile):
    df = pd.read_csv(csvfile + ".csv", encoding='latin-1')
    start = datetime.datetime.strptime("01-01-2018", "%d-%m-%Y")
    end = datetime.datetime.strptime("01-06-2018", "%d-%m-%Y")
    new_df=df[(pd.to_datetime(df.time) > start) & (pd.to_datetime(self.df.time) < end)]

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...