Скачать файл с помощью javascript onclick с помощью Python? - PullRequest
0 голосов
/ 29 августа 2018

На этой странице есть кнопка с надписью Download CSV: http://www.nasdaqomxnordic.com/aktier/microsite?Instrument=CSE77855&name=Pandora&ISIN=DK0060252690

Как я могу скачать файл, используя Python?

HTML-код страницы гласит:

<a class="floatRight exportTrades" id="exportIntradayTradesCSV">Download CSV</a>

<script>
// #*

var tradesForShare = {
    load: function () {
        var q = {
            "SubSystem": "Prices",
            "Action": "GetInstrument",
            "inst.an": "nm",
            "inst.e": "3",
            "Exchange": "NMF",
            "Instrument": webCore.getInstrument(),
            "cache": "skip",
            "app": location["pathname"],
            "datasource": "prod",
            "translationFile": "translation",
            "DefaultDecimals": false
        };

        $("#tradesForShareOutput").loading("/static/nordic/css/img/loading.gif");
        var nordicRTI = NordicRTI.getInstance();
        var url = window.webCore.getWebAPIURL("prod", "MarketData/GetMarketData", true);
        var tradesRTI = new RTIObject(url, q, function (data) {
            tradesForShare.parseData(data);
                       console.log(tradesRTI);
        });
        nordicRTI.addRTIObject(tradesRTI);

        if($("tradesForShareTable").has("tr.odd")) {
                     $('.exportTrades').removeClass('disabled');
                     $('.exportTrades.disabled').css("pointer-events","auto");
                } else {
                     $('.exportTrades').addClass('disabled');
                     $('.exportTrades').css("pointer-events","none");
                }
        /*webCore.getMarketData(q, function (data) {
            tradesForShare.parseData(data);
        }, true);*/

        //var url = window.webCore.getWebAPIURL("prod", "MarketData/GetMarketData", true);
        /*$.getJSON(url, q, function (data) {
            tradesForShare.parseData(data);
        });*/
        /*$.ajax({
            type: "get",
            url: url,
            data: q,
            dataType: "jsonp",
            cache: true,
            success: function (data) {
                tradesForShare.parseData(data);
            },
            jsonp: "callback"
        });*/

        //setTimeout ( tradesForShare.load, 1000*30 );  // update every minute
    },
    parseData: function (data) {
        if(data.instruments != null) {
            $("#tradesForShareOutput").empty();
            var table = $("<table></table>").attr("id", "tradesForShareTable").addClass("tablesorter");
            var thead = $("<thead></thead>");
            var row = $("<tr></tr>");
            var kurs = $("<th></th>").text(webCore.getTranslationFor("trades", "p", data));// data.attributeTranslations.trades.p.trans[window.currentLanguage]);
            var vol = $("<th></th>").text(webCore.getTranslationFor("trades", "v", data));// data.attributeTranslations.trades.v.trans[window.currentLanguage]);
            var name = $("<th></th>").text(webCore.getTranslationFor("trades", "nm", data));// data.attributeTranslations.trades.nm.trans[window.currentLanguage]);
            var buyer = $("<th></th>").text(webCore.getTranslationFor("trades", "b", data));// data.attributeTranslations.trades.b.trans[window.currentLanguage]);
            var seller = $("<th></th>").text(webCore.getTranslationFor("trades", "s", data));// data.attributeTranslations.trades.s.trans[window.currentLanguage]);
            var time = $("<th></th>").text(webCore.getTranslationFor("trades", "t", data));// data.attributeTranslations.trades.t.trans[window.currentLanguage]);
            row.append(kurs).append(vol).append(name).append(buyer).append(seller).append(time);
            thead.append(row);
            var tbody = $("<tbody></tbody>");
            $.each(data.instruments[webCore.getInstrument().toLowerCase()].trades, function (k, v) {
                row = $("<tr></tr>");
                kurs = $("<td></td>").text(webCore.formatNumeric(v.values.p, 3));
                vol = $("<td></td>").text(window.webCore.formatNumeric(v.values.v, 0));
                name = $("<td></td>").text(v.values.nm);
                buyer = $("<td></td>").text(v.values.b);
                seller = $("<td></td>").text(v.values.s);
                time = $("<td></td>").text(webCore.getTimeFromDateString(v.values.t));
                row.append(kurs).append(vol).append(name).append(buyer).append(seller).append(time);
                tbody.append(row);
            });
            table.append(thead).append(tbody);
            $("#tradesForShareOutput").append(table);
            $("#tradesForShareTable").tablesorter({widgets: ['zebra']});
        }
    },
    excel: function () {
        var instrument = null;
        instrument = window.webCore.getInstrument();
        var utc = new Date().toJSON().slice(0,10).replace(/-/g,'-');
        $("#xlsForm").attr( "action", webCore.getProxyURL("prod"));
        var xmlquery = webCore.createQuery( Utils.Constants.marketAction.getTrades, {}, {
            t__a: "1,2,5,10,7,8,18",
                         FromDate : utc,
                         Instrument : instrument,
            ext_contenttype : "application/vnd.ms-excel",
            ext_contenttypefilename : "share_export.xls",
            ext_xslt:"t_table_simple.xsl",
            ext_xslt_lang: currentLanguage,
                        showall: "1"
        });
        console.log(xmlquery);
        $("#xmlquery").val( xmlquery );
        $("#xlsForm").submit();
    }
};

$(function () {
    tradesForShare.load();
$("#exportIntradayTradesCSV").on({
        click: function (e) {
                tradesForShare.excel();
            //window.webCore.exportTableToCSVClickEvent($("#exportIntradayTradesCSV"), $("#tradesForShareOutput"), '_' + window.webCore.getInstrument() + '.csv');
        }
    });
});



</script>

Я пытался использовать Inspect в Google Chrome и нажимал Event Listeners.

При нажатии на кнопку я получил следующий вывод:

<post>
<param name="SubSystem" value="Prices"/>
<param name="Action" value="GetTrades"/>
<param name="Exchange" value="NMF"/>
<param name="t__a" value="1,2,5,10,7,8,18"/>
<param name="FromDate" value="2018-08-29"/>
<param name="Instrument" value="CSE77855"/>
<param name="ext_contenttype" value="application/vnd.ms-excel"/>
<param name="ext_contenttypefilename" value="share_export.xls"/>
<param name="ext_xslt" value="/nordicV3/t_table_simple.xsl"/>
<param name="ext_xslt_lang" value="en"/>
<param name="showall" value="1"/>
<param name="app" value="/aktier/microsite"/>
</post>

Поэтому я подумал, что могу сделать что-то похожее на следующее, но это не работает; см. вывод ниже.

import requests

url = 'http://www.nasdaqomxnordic.com/WebAPI/api/MarketData/GetMarketData'
params = {
"SubSystem": "Prices",
"Action": "GetTrades",
"Exchange": "NMF",
"t__a": "1,2,5,10,7,8,18",
"FromDate": "2018-08-29",
"Instrument": "CSE77855",
"ext_contenttype": "application/vnd.ms-excel",
"ext_contenttypefilename": "share_export.xls",
"ext_xslt": "/nordicV3/t_table_simple.xsl",
"ext_xslt_lang": "en",
"showall": "1",
"app": "/aktier/microsite",
}

r = requests.get(url, params=params)

print(r.json())

Я получаю следующий вывод:

{'linkCall': 'SubSystem=Prices&Action=GetTrades&Exchange=NMF&t.a=1&t.a=2&t.a=5&t.a=10&t.a=7&t.a=8&t.a=18&FromDate=2018-08-29&Instrument=CSE77855&ext_contenttype=application%2fvnd.ms-excel&ext_contenttypefilename=share_export.xls&ext_xslt=%2fnordicV3%2ft_table_simple.xsl&ext_xslt_lang=en&showall=1&app=%2faktier%2fmicrosite', 'instruments': None, 'derivatives': None, 'warrants': None, 'attributeTranslations': {}, 'message': None, 'success': False}

Если возможно, я бы хотел избежать Selenium.

1 Ответ

0 голосов
/ 30 августа 2018

Изучая HTML, я заметил, что действие формы - /webproxy/DataFeedProxy.aspx, а метод - post. Это означает, что форма отправляется: http://www.nasdaqomxnordic.com/webproxy/DataFeedProxy.aspx через POST-запрос. Форма имеет одно поле с именем xmlquery и значением HTML в вашем вопросе. Код ниже должен загрузить файл.

import requests

url = 'http://www.nasdaqomxnordic.com/webproxy/DataFeedProxy.aspx'
xmlquery = '''<post>
<param name="SubSystem" value="Prices"/>
<param name="Action" value="GetTrades"/>
<param name="Exchange" value="NMF"/>
<param name="t__a" value="1,2,5,10,7,8,18"/>
<param name="FromDate" value="2018-08-29"/>
<param name="Instrument" value="CSE77855"/>
<param name="ext_contenttype" value="application/vnd.ms-excel"/>
<param name="ext_contenttypefilename" value="share_export.xls"/>
<param name="ext_xslt" value="/nordicV3/t_table_simple.xsl"/>
<param name="ext_xslt_lang" value="en"/>
<param name="showall" value="1"/>
<param name="app" value="/aktier/microsite"/>
</post>'''

r = requests.post(url, data = {'xmlquery': xmlquery})
html = r.text

Файл не csv (и не файл, который я получаю из моего браузера), он имеет расширение .xls, но содержит большую HTML-таблицу. Однако вы можете создать CSV-файл с помощью BeautifulSoup и csv.

from bs4 import BeautifulSoup
import csv

soup = BeautifulSoup(html, 'html.parser')
names = [i.text for i in soup.select('th')] + ['Name']
values = [
    [td.text for td in tr.select('td')] + [tr.td['title'].rstrip(' - ')]
    for tr in soup.select('tr')[1:]
]

with open('file.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(names)
    writer.writerows(values)

Обратите внимание, что BeautifulSoup может потребоваться некоторое время для анализа файла, так как он достаточно велик. Если вы используете Python 2x open не принимает параметр newline. В этом случае вам придется открыть файл в двоичном режиме или он может содержать пустые строки.


Как уже упоминалось tommy.carstensen , pandas лучше для этой задачи. У него есть нужные инструменты (read_html и to_csv), и он быстрее, чем BeautifulSoup.

import pandas as pd

pd.read_html(htm_string, index_col='Time', parse_dates=True)[0].to_csv(path)

Столбец Name не включен в файл, потому что его нет в столбцах таблицы, но это значение атрибута title. Но мы могли бы получить этот столбец другими способами - например, из исходного URL. Поскольку он одинаков для всех столбцов, мы можем просто создать новый столбец Name со значением name строки запроса.

import pandas as pd
from urllib.parse import urlparse, parse_qs

url = 'http://www.nasdaqomxnordic.com/aktier/microsite?Instrument=CSE77855&name=Pandora&ISIN=DK0060252690'
df = pd.read_html(html, index_col='Time', parse_dates=True)[0]
df['Name'] = parse_qs(urlparse(url).query)['name'][0]
df.to_csv('file.csv')
...