Настройка фиктивной базы данных в Python для модульного тестирования - PullRequest
2 голосов
/ 08 апреля 2019

Я хочу создать фиктивную базу данных (в отличие от создания тестовой базы данных, если это возможно), чтобы проверить, правильно ли запрашиваются данные, а затем преобразовываются в фрейм данных Pandas.У меня есть некоторый опыт работы с пробным и модульным тестированием, и я успешно настроил предыдущий тест.Однако у меня возникают трудности с применением способа моделирования реальных объектов, таких как базы данных, для тестирования.

В настоящее время у меня возникают проблемы с генерацией результата при запуске теста.Я полагаю, что не правильно насмехаюсь над объектом базы данных, пропускаю какой-либо шаг или мой мыслительный процесс неверен.Я поместил свои тесты и мой код в один и тот же скрипт, чтобы упростить процесс.

  • Я внимательно прочитал документацию по тестированию модулей на Python и ознакомился с документацией, поэтому я знаю, что она делает и как она работает (по большей части).
  • Я прочитал бесчисленные постына насмешки в стеке и за его пределами.Они были полезны для понимания общих концепций и того, что можно сделать в указанных конкретных обстоятельствах, но я не мог заставить его работать в моей ситуации.
  • Я пытался высмеивать различные аспекты функции, включая соединение с базой данных, запрос и использование функции 'pd_read_sql (query, con)' безрезультатно.Я считаю, что это самое близкое, что у меня есть.

Мой самый последний код для тестирования

import pandas as pd
import pyodbc
import unittest
import pandas.util.testing as tm

from unittest import mock

# Function that I want to test
def p2ctt_data_frame():
    conn = pyodbc.connect(
        r'Driver={Microsoft Access Driver (*.mdb, *.accdb)};'
        r'DBQ=My\Path\To\Actual\Database\Access Database.accdb;'
    )

    query = 'select * from P2CTT_2016_Plus0HHs'

    # I want to make sure this dataframe object is created as intended
    df = pd.read_sql(query, conn) 

    return df


class TestMockDatabase(unittest.TestCase):

    @mock.patch('directory1.script1.pyodbc.connect')  # Mocking connection
    def test_mock_database(self, mock_access_database):

        # The dataframe I expect as the output after query is run on the 'mock database'
        expected_result = pd.DataFrame({
            'POSTAL_CODE':[
                'A0A0A1'
            ],
            'DA_ID':[
                1001001
            ],
            'GHHDS_DA':[
                100
            ]
        })

        # This is the line that I believe is wrong. I want to create a return value that mocks an Access table
        mock_access_database.connect().return_value = [('POSTAL_CODE', 'DA_ID', 'GHHDS_DA'), ('A0A0A1', 1001001, 100)]

        result = p2ctt_data_frame()  # Run original function on the mock database

        tm.assert_frame_equal(result, expected_result) 


if __name__ == "__main__":
    unittest.main()

Я ожидаю, что ожидаемый фрейм данных и результат после запуска теста с использованием фиктивного объекта базы данных будут одинаковыми.Это не вариант.

В настоящее время, если я распечатываю результат при попытке смоделировать базу данных, я получаю:

Пустые столбцы DataFrame: [] Индекс: []

Кроме того, я получаюследующая ошибка после запуска теста:

AssertionError: DataFrame отличаются;
Несоответствие формы DataFrame [влево]: (0, 0) [вправо]: (1, 3)

1 Ответ

2 голосов
/ 17 апреля 2019

Я бы разбил его на несколько отдельных тестов. Функциональный тест для получения желаемого результата, тест для проверки доступа к базе данных и получения ожидаемых результатов, а также финальный тестовый модуль по его реализации. Я написал бы каждый тест в таком порядке, выполняя тесты перед фактической функцией. Если обнаружится, что если я не могу понять, как что-то сделать, я попробую это на отдельном REPL или создам ветку git для работы, а затем вернусь к основной ветке. Более подробную информацию можно найти здесь: https://obeythetestinggoat.com/book/praise.harry.html

Комментарии к каждому тесту и причина этого в коде.

import pandas as pd
import pyodbc

def p2ctt_data_frame(query='SELECT * FROM P2CTT_2016_Plus0HHs;'): # set query as default
    with  pyodbc.connect(
        r'Driver={Microsoft Access Driver (*.mdb, *.accdb)};'
        r'DBQ=My\Path\To\Actual\Database\Access Database.accdb;'
    ) as conn:  # use with so the connection is closed once completed

        df = pd.read_sql(query, conn)

    return df

Отдельный тестовый файл:

import pandas as pd
import pyodbc
import unittest
from unittest import mock

class TestMockDatabase(unittest.TestCase):

    def test_p2ctt_data_frame_functional_test(self):  # Functional test on data I know will not change
        actual_df = p2ctt_data_frame(query='SELECT * FROM P2CTT_2016_Plus0HHs WHERE DA_ID = 1001001;')

        expected_df = pd.DataFrame({
            'POSTAL_CODE':[
                'A0A0A1'
            ],
            'DA_ID':[
                1001001
            ],
            'GHHDS_DA':[
                100
            ]
        })

        self.assertTrue(actual_df == expected_df)

    def test_access_database_returns_values(self):  # integration test with the database to make sure it works
        with pyodbc.connect(
            r'Driver={Microsoft Access Driver (*.mdb, *.accdb)};'
            r'DBQ=My\Path\To\Actual\Database\Access Database.accdb;'
        ) as conn:
            with conn.cursor() as cursor:
                cursor.execute("SELECT TOP 1 * FROM P2CTT_2016_Plus0HHs WHERE DA_ID = 1001001;")
                result = cursor.fetchone()

        self.assertTrue(len(result) == 3)  # should be 3 columns by 1 row

        # Look for accuracy in the database
        info_from_db = []
        for data in result:  # add to the list all data in the database
            info_from_db.append(data)

        self.assertListEqual(   # All the information matches in the database
            ['A0A0A1', 1001001, 100], info_from_db
        )


    @mock.patch('directory1.script1.pd')  # testing pandas
    @mock.patch('directory1.script1.pyodbc.connect')  # Mocking connection so nothing sent to the outside
    def test_pandas_read_sql_called(self, mock_access_database, mock_pd):  # unittest for the implentation of the function
        p2ctt_data_frame()
        self.assert_True(mock_pd.called)  # Make sure that pandas has been called
        self.assertIn(
            mock.call('select * from P2CTT_2016_Plus0HHs'), mock_pd.mock_calls
        )  # This is to make sure the proper value is sent to pandas. We don't need to unittest that pandas handles the
        # information correctly.

* Я не смог проверить это, поэтому могут быть некоторые ошибки, которые мне нужно исправить

...