Как избежать тупика в nodejs mysql с большим количеством запросов? - PullRequest
0 голосов
/ 23 мая 2018

У меня много URL, для каждого URL, который я вызываю функцией load (url), эта функция анализирует html, извлекает необходимые данные и создает массовый запрос вставки, как вы можете видеть в моем коде test.js.Проблема в том, что если у меня много URL (например, 100+), я получаю сообщение об ошибке: ER_LOCK_DEADLOCK из mysql.Я пытался использовать async.queue, но это почему-то не работает (я не знаю почему, может быть, я использую неправильно).Как я могу выполнить много URL + запросов один за другим, избегая параллельного выполнения, которое, я думаю, привело к тупику?Даже использование результатов async.queue для DEADLOCK (не всегда).

test.js

const request = require('request');
const async = require('async');
const pool = require('./database');

const urls = [
    'https://www.quora.com/What-is-the-best-way-to-have-delayed-job-queue-with-node-js',
    'https://de.wikipedia.org/wiki/Reinhardt-Zimmermann-L%C3%B6sung',
    'https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68'
]

let load = function(url) {
    request({url: url}, function(error, response, html) {
        if(!error) {
            console.log(html);
            /**
             * 1. Parse HTML
             * 2. Create Array of Values
             * 3. Call pool.query(sql, [values], function(error) { ... })
             */
            let data = [{}];
            let sql = "INSERT IGNORE INTO tbl_test (title, content) VALUES ?";
            let values = [];

            data.forEach((item) => { values.push(item) });

            pool.query(sql, [values], function(error) { 
                if(error) throw error;
             })
        } else {
            console.log("handle error...");
        }
    })
}

let jobs = []

/*urls.forEach((url) => {
    //jobs.push(load(url)); // --> Works but fails if the urls list is to big -> mysql deadlock error!
    jobs.push(function(callback) { callback(load(url)) });
})*/

let q = async.queue(function(task, callback) {
    console.log("Task:", task.uri);
    callback();
})

q.drain = function() {
    console.log('all task completed');
    pool.end();
}

urls.forEach((url) => {
    q.push({uri: url}, function(err) {
        console.log('finished processing ...')
    });
});

databse.js

require('dotenv').config();

const mysql = require('mysql');

let pool = mysql.createPool(
    {
        connectionLimit: 10,
        host: process.env.DB_HOST,
        port: process.env.DB_PORT,
        user: process.env.DB_USER,
        password: process.env.DB_PASSWORD,
        database: process.env.DB_NAME
    }
);

pool.getConnection((err, connection) => {
    if(err) {
        if(err.code === 'PROTOCOL_CONNECTION_LOST') {
            console.log('Database connection lost.')
        }

        if(err.code === 'ER_CON_COUNT_ERROR') {
            console.log('Database has too many connections.')
        }

        if(err.code === 'ECONNREFUSED') {
            console.log('Database connection refused.')
        }

        if(err.code === 'POOL_CLOSED') {
            console.log('Pool is closed.')
        }
    }

    if(connection) {
        connection.release()
    }

    return;
});

module.exports = pool;

1 Ответ

0 голосов
/ 24 мая 2018

Я изменил код для использования async.series вместо async.queue, поскольку задачи будут выполняться параллельно в очереди (см .: https://caolan.github.io/async/docs.html#queue).

test.js

...
let tasks = [];

context.forEach((ctx) => {
    tasks.push(function(callback) { load(ctx, callback) });
});

async.series(tasks, function(err) {
    if(err) return next(err);
});
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...