Plotly Dash с возможностью удалять и интерполировать выбросы - PullRequest
0 голосов
/ 04 февраля 2019

Я строю информационную панель для построения графиков с возможностью исключать выбросы, щелкая точки на графике и изменяя данные на интерполированные значения.

Основная идея этой информационной панели - ускорить подготовку данных.и проще для людей, которые не используют Python.Также эта черта будет использоваться для простой визуализации данных (своего рода Power BI ручной работы).И после всех итераций новый файл с чистыми данными будет записан в виде .csv без выбросов.

Работая над этим, я столкнулся с 2 проблемами:

  1. Как подключиться, импортированный интерфейсом панели мониторингаданные с разметкой графика.
  2. Как выбрать точки на графике или выбрать период времени в datePickerRange, удалить значения и интерполировать ( scipy.interpolate.interp1d ) отсутствует (удалены) или измените их с помощью скользящего среднего ( pd.rolling_mean () ).Также я обнаружил, что интерполяция pandas дает такие же результаты, поэтому будет хорошо использовать ее.

Существует блок кода для разбора данных:

def parse_contents(contents, filename, date):

content_type, content_string = contents.split(',')
decoded = base64.b64decode(content_string)

try:
    if 'csv' in filename:
        # Assume that the user uploaded a CSV file
        df = pd.read_csv(io.StringIO(decoded.decode('cp1251')), sep = ';' )
    elif 'tsv' in filename:
        # Assume that the user uploaded a TSV file
        df = pd.read_csv(io.StringIO(decoded.decode('utf-8')), sep = '\t')   
    elif 'xls' in filename:
        # Assume that the user uploaded an excel file
        df = pd.read_excel(io.BytesIO(decoded))
    elif 'xlsx' in filename:
        # Assume that the user uploaded a new excel file
        df = pd.read_excel(io.BytesIO(decoded))

except Exception as e:
    print(e)
    return html.Div([
        'There was an error processing this file.'
    ])

return html.Div([
    html.H5(filename),
    html.H6(datetime.datetime.fromtimestamp(date)),

    dash_table.DataTable(
        data = df.to_dict('rows'),
        columns = [{'name': i, 'id': i} for i in df.columns]),

    html.Hr(),  # horizontal line

    # For debugging, display the raw contents provided by the web browser
    html.Div('Raw Content'),
    html.Pre(contents[0:10] + '...', style = {
        'whiteSpace': 'pre-wrap',
        'wordBreak': 'break-all'
    })
])

и обратный вызовфункция для поля ввода:

@dashboard.callback(
Output('output-data-upload', 'children'),
[Input('upload-data', 'contents')],
[State('upload-data', 'filename'),
State('upload-data', 'last_modified')])

def update_output(list_of_contents, list_of_names, list_of_dates):

if list_of_contents is not None:
    children = [parse_contents(c, n, d) for c, n, d in zip(list_of_contents, list_of_names, list_of_dates)]

    return children

Эта часть кода буквально взята из официальной документации.Удивительно, что я могу смотреть на загруженные данные, но я хотел бы использовать имена столбцов и дату из этих столбцов для построения графика так же, как я делаю это в Pandas.

Чтобы выбрать имя столбца, я создал два выпадающих компонента:

#Create dropdown for X-axis
    html.Div([
        dcc.Dropdown(
            id = 'xaxis-column',
            options = [{'label': i, 'value': i} for i in df.columns],
            value = 'Xdate')],
        style = {'width': '48%', 'display': 'inline-block'}),

#Create dropdown for Y-axis
    html.Div([
        dcc.Dropdown(
            id = 'yaxis-column',
            options = [{'label': i, 'value': i} for i in df.columns],
            value = 'Yval')],
        style = {'width': '48%', 'float': 'right', 'display': 'inline-block'})

И часть кода для графика:

dcc.Graph(id = 'graph')

@dashboard.callback(
Output('graph', 'figure'),
[Input('xaxis-column', 'value'),
 Input('yaxis-column', 'value'),
 Input('xaxis-type', 'value'),
 Input('yaxis-type', 'value'),
 Input('XYeardate--slider', 'value')])


def update_graph(xaxis_column_name, yaxis_column_name, 
             xaxis_type, yaxis_type, Year_value):

dff = df[df['XYeardate'] == Year_value]

return {
    'data': [go.Scatter(
        x = dff[dff['Xval'] == xaxis_column_name]['Xdate'],
        y = dff[dff['Xval'] == yaxis_column_name]['Yval'],
        text = dff[dff['Xval'] == yaxis_column_name]['ID'],
        mode = 'markers',
        marker = {
            'size': 10, #was 'size': 15
            'opacity': 0.5,
            'line': {'width': 0.5, 'color': 'white'}})],

    'layout': go.Layout(
        xaxis = {
            'title': xaxis_column_name,
            'type': 'linear' if xaxis_type == 'Linear'},

        yaxis = {
            'title': yaxis_column_name,
            'type': 'linear' if yaxis_type == 'Linear'},

        margin = {'l': 40, 'b': 40, 't': 10, 'r': 0},
        hovermode = 'closest')}

Я могу добавить другие части кода в комментариях, если это необходимо.

Любые комментарии приветствуются!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...