Истинное значение DataFrame неоднозначно - PullRequest
0 голосов
/ 25 июня 2018

Я пытаюсь получить значения, относящиеся к бренду и производителю, которые совпадают (например, бренд == Дж. Р. Уоткинс и производитель == Дж. Р. Уоткинс) в последнем блоке elif. Но он выдает ошибку как:

ValueError: Истинное значение DataFrame неоднозначно. Используйте a.empty, a.bool (), a.item (), a.any () или a.all (). Мой код:

import csv
import pandas as pd
import sys
class sample:
        def create_df(self, f):
                self.z=pd.read_csv(f)

        def get_resultant_df(self, list_cols):
                self.data_frame = self.z[list_cols[:]]

        def process_df(self, df, conditions):
                resultant_df = self.data_frame

                if conditions[2] == 'equals':
                        new_df=resultant_df[resultant_df[conditions[1]] == conditions[3]]
                        return new_df
                elif conditions[2] == 'contains':
                        new_df = resultant_df[resultant_df[conditions[1]].str.contains(conditions[3])]
                        return new_df
                elif conditions[2] == 'not equals':
                        new_df = resultant_df[resultant_df[conditions[1]] != conditions[3]]
                        return new_df
                elif conditions[2] == 'startswith':
                        new_df = resultant_df[resultant_df[conditions[1]].str.startswith(conditions[3])]
                        return new_df
                elif conditions[2] == 'in':
                        new_df = resultant_df[resultant_df[conditions[1]].isin(resultant_df[conditions[3]])]
                        return new_df
                elif conditions[2] == 'not in':
                        new_df = resultant_df[~resultant_df[conditions[1]].isin(resultant_df[conditions[3]])]
                        return new_df
                elif conditions[2]=='group':
                        new_df=list(resultant_df.groupby(conditions[0])[conditions[1]])
                        return new_df
                elif conditions[2]=='specific':
                        new_df=resultant_df.loc[resultant_df[conditions[0]]==conditions[8]]
                        return new_df
                elif conditions[2]=='same':
                        if(resultant_df.loc[(resultant_df[conditions[0]]==conditions[8]) & (resultant_df[conditions[1]]==conditions[8])]).all():
                                new_df=resultant_df
                                return new_df
if __name__ == '__main__':
        sample = sample()
        sample.create_df("/home/purpletalk/GrammarandProductReviews.csv")
        df = sample.get_resultant_df(['brand', 'reviews.id','manufacturer','reviews.title','reviews.username'])
        new_df = sample.process_df(df, ['brand','manufacturer','same','manufacturer', 'size', 'equal',8,700,'J.R. Watkins'])
        print new_df['brand']

1 Ответ

0 голосов
/ 25 июня 2018

Я пытаюсь получить одинаковые значения, относящиеся к бренду и производителю (например, бренд == JR Watkins и производитель == JRWatkins)

Ваша логика слишком сложна.Просто примените фильтр:

df = df[(df['brand'] == 'J.R. Watkins') & (df['manufacturer'] == 'J.R.Watkins')]

Вам не нужен pd.DataFrame.all(), что, похоже, является тем, что вы пытаетесь.Также вам не нужен внутренний оператор if: если нет совпадения, у вас будет пустой фрейм данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...