Я анализирую документ и записываю на такие пары дисков, как эти:
0 vs 1, true
0 vs 2, false
0 vs 3, true
1 vs 2, true
1 vs 3, false
..
и т. Д.
Последовательно я балансирую истинные и ложные строки для каждого экземпляра, удаляя случайные строки (строки с истинным значением, если они превышают, и наоборот), и я получаю файл, такой как этот:
0 vs 1 true
0 vs 2 false
1 vs 2 true
1 vs 3 true
1 vs 4 false
1 vs 5 false
Обычно ложные значения намного больше, чем истины, поэтому в предыдущем примере я мог оставить только 1 ложь для 0 и только 2 ложи для примера 1.
Я делаю этот процесс в 2 этапа, перед синтаксическим анализом и последующей балансировкой.
Теперь моя проблема в том, что несбалансированный файл слишком большой: более 1 ГБ, и большая часть его строк будет удалена на этапе балансировки.
У меня вопрос: могу ли я сбалансировать строки при разборе?
Я предполагаю, что нет, потому что я не знаю, какие элементы прибывают, и я не могу удалить ни одну строку до тех пор, пока не будут обнаружены все строки для конкретного экземпляра.
Надеюсь, это понятно.
спасибо