WikiDer > Полифазная сортировка слиянием
Многофазная сортировка слиянием - это вариант метода снизу вверх Сортировка слиянием который сортирует список с использованием начального неравномерного распределения подсписок (запусков), в основном используется для внешняя сортировка, и она более эффективна, чем обычная сортировка слиянием, когда имеется менее 8 внешних рабочих файлов (например, ленточный накопитель или файл на жестком диске). Полифазная сортировка слиянием - это не стабильная сортировка.
Обычная сортировка слиянием
А Сортировка слиянием разделяет записи набора данных на отсортированные серии записей, а затем многократно объединяет отсортированные серии в более крупные отсортированные прогоны, пока не останется только один прогон, отсортированный набор данных.
Обычная сортировка слиянием с использованием четырех рабочих файлов организует их как пару входных файлов и пару выходных файлов. Набор данных равномерно распределяется между двумя рабочими файлами либо в виде отсортированных прогонов, либо, в простейшем случае, отдельных записей, которые можно рассматривать как отсортированные прогоны размера 1. После того, как весь набор данных передан в два рабочих файла, эти два рабочих файла становятся входными файлами для первой итерации слияния. Каждая итерация слияния запускает слияние двух входных рабочих файлов, чередуя объединенный выход между двумя выходными файлами, снова распределяя объединенные прогоны равномерно между двумя выходными файлами (до последней итерации слияния). После того, как все прогоны из двух входных файлов объединены и выведены, выходные файлы становятся входными файлами и наоборот для следующей итерации слияния. Количество прогонов уменьшается в 2 раза на каждой итерации, например, 64, 32, 16, 8, 4, 2, 1. Для последней итерации слияния два входных файла имеют только один отсортированный прогон (1/2 из набор данных) каждый, а объединенный результат представляет собой один отсортированный прогон (отсортированный набор данных) для одного из выходных файлов. Это также описано в Сортировка слиянием § Использование с ленточными накопителями.
Если есть только три рабочих файла, то обычная сортировка слиянием слияниями отсортированных запускает два рабочих файла в один рабочий файл, а затем распределяет запуски равномерно между двумя выходными файлами. Итерация слияния уменьшает количество запусков в 2 раза, итерация с перераспределением не уменьшает количество запусков (коэффициент равен 1). Можно рассматривать каждую итерацию для уменьшения количества запусков в среднем на коэффициент √2 ≈ 1,41. Если есть 5 рабочих файлов, то шаблон чередуется между трехсторонним слиянием и двухсторонним слиянием для среднего коэффициента √6 ≈ 2.45.
В общем, для четного числа N рабочих файлов, каждая итерация обычной сортировки слиянием уменьшает количество запусков в раз N/ 2, а для нечетного числа N рабочих файлов, каждая итерация сокращает количество запусков в среднем в √(N2−1)/4 = √N2−1/2.
Полифазное слияние
За N <8 рабочих файлов, многофазная сортировка слиянием обеспечивает более высокий коэффициент эффективного сокращения количества запусков за счет неравномерного распределения отсортированных запусков между N-1 рабочий файл (объяснено в следующем разделе). Каждая итерация слияния запускается с N-1 рабочий файл в один выходной рабочий файл. Когда конец одного из N-1 рабочий файл, затем он становится новым выходным файлом, а то, что было выходным файлом, становится одним из N-1 рабочий входной файл, начиная новую итерацию многофазной сортировки слиянием. Каждая итерация объединяет только часть набора данных (от 1/2 до 3/4), за исключением последней итерации, которая объединяет весь набор данных в один отсортированный прогон. Начальное распределение настроено так, что за раз очищается только один входной рабочий файл, за исключением последней итерации слияния, которая объединяет N−1 одиночных прогонов (разного размера, это объясняется далее) из N−1 входных рабочих файлов в единственный выходной файл, в результате чего получается один отсортированный прогон, отсортированный набор данных.
Для каждой многофазной итерации общее количество прогонов следует шаблону, аналогичному обратному Числа Фибоначчи высшего порядка последовательность. С 4 файлами и набором данных, состоящим из 57 запусков, общее количество запусков на каждой итерации будет 57, 31, 17, 9, 5, 3, 1.[1][2] Обратите внимание, что, за исключением последней итерации, коэффициент уменьшения количества запусков немного меньше 2, 57/31, 31/17, 17/9, 9/5, 5/3, 3/1, около 1,84 для 4 файлов. случае, но каждая итерация, кроме последней, уменьшала количество запусков при обработке примерно 65% набора данных, поэтому коэффициент уменьшения количества запусков на набор данных, обработанный во время промежуточных итераций, составляет около 1,84 / 0,65 = 2,83. Для набора данных, состоящего из 57 прогонов по 1 записи в каждом, затем после начального распределения многофазная сортировка слиянием перемещает 232 записи в течение 6 итераций, необходимых для сортировки набора данных, с общим коэффициентом сокращения 2,70 (более подробно это объяснено позже. ).
После первой многофазной итерации выходной файл теперь содержит результаты слияния. N−1 исходный прогон, но оставшиеся N−2 входных рабочих файла по-прежнему содержат оставшиеся исходные прогоны, поэтому вторая итерация слияния производит прогоны размера (N−1) + (N−2) = (2N - 3) оригинальные пробеги. Третья итерация производит серии размером (4N - 7) оригинальные пробеги. С 4 файлами первая итерация создает прогоны размера 3 исходных прогонов, вторая итерация 5 исходных прогонов, третья итерация 9 исходных прогонов и так далее, следуя шаблону, подобному Фибоначчи, 1, 3, 5, 9, 17, 31, 57, ..., поэтому увеличение размера серии следует по той же схеме, что и уменьшение количества запусков в обратном порядке. В примере с 4 файлами и 57 прогонами по 1 записи каждая последняя итерация объединяет 3 прогона размером 31, 17, 9, в результате чего получается один отсортированный прогон размером 31 + 17 + 9 = 57 записей, отсортированный набор данных. Пример количества запусков и размеров запусков для 4 файлов, 31 запись можно найти в таблице 4.3.[3]
Идеальная 3-х файловая многофазная сортировка слиянием
Проще всего рассматривать многофазное слияние, начиная с его конечных условий и работая в обратном направлении. В начале каждой итерации будет два входных файла и один выходной файл. В конце итерации один входной файл будет полностью использован и станет выходным файлом для следующей итерации. Текущий выходной файл станет входным файлом для следующей итерации. Остальные файлы (только один в случае с 3 файлами) были использованы только частично, и их оставшиеся прогоны будут введены для следующей итерации.
Файл 1 только что очистился и стал новым выходным файлом. На каждой входной ленте остается по одному прогону, и объединение этих прогонов вместе создаст отсортированный файл.
Файл 1 (исходящий): <1 запуск> * (отсортированный файл) Файл 2 (входящий): ... | <1 запуск> * -> ... <1 запуск> | * (израсходовано) Файл 3 (вход): | <1 запуск> * <1 запуск> | * (потреблено) ... возможные прогоны, которые уже были прочитаны | отмечает указатель чтения файла * отмечает конец файла
Возвращаясь к предыдущей итерации, мы читали из 1 и 2. Один прогон объединяется из 1 и 2, прежде чем файл 1 станет пустым. Обратите внимание, что файл 2 не используется полностью - у него осталось одно выполнение, чтобы соответствовать окончательному слиянию (см. Выше).
Файл 1 (в): ... | <1 запуск> * ... <1 запуск> | * Файл 2 (в): | <2 прогона> * -> <1 прогон> | <1 запуск> * Файл 3 (вышел): <1 запуск> *
Возвращаясь к другой итерации, 2 прогона объединяются с 1 и 3, прежде чем файл 3 станет пустым.
Файл 1 (в): | <3 пробега> ... <2 пробега> | <1 запуск> * Файл 2 (выход): -> <2 прогон> * Файл 3 (вход): ... | <2 пробега> * <2 пробега> | *
Возвращаясь к другой итерации, 3 прогона объединяются из 2 и 3, прежде чем файл 2 станет пустым.
Файл 1 (выход): <3 прогона> * Файл 2 (вход): ... | <3 прогона> * -> ... <3 прогона> | * Файл 3 (вход): | <5 пробежек> * <3 пробежек> | <2 прогона> *
Возвращаясь к другой итерации, 5 прогонов объединяются из 1 и 2, прежде чем файл 1 станет пустым.
Файл 1 (в): ... | <5 прогонов> * ... <5 прогонов> | * Файл 2 (в): | <8 прогонов> * -> <5 прогонов> | <3 прогона> * Файл 3 (вышел): <5 прогон> *
Распределение для многофазной сортировки слиянием
Глядя на идеальный вариант из трех файлов, количество прогонов для объединенной работы в обратном направлении: 1, 1, 2, 3, 5, ... показывает последовательность Фибоначчи. Последовательность для более чем трех файлов немного сложнее; для 4 файлов, начиная с конечного состояния и работая в обратном направлении, шаблон счетчика запусков равен {1,0,0,0}, {0,1,1,1}, {1,0,2,2}, {3 , 2,0,4}, {7,6,4,0}, {0,13,11,7}, {13,0,24,20}, ....
Чтобы все работало оптимально, последняя фаза слияния должна иметь ровно один запуск для каждого входного файла. Если какой-либо входной файл имеет более одного запуска, потребуется еще один этап. Следовательно, сортировка с многофазным слиянием должна быть продумана в отношении начального распределения прогонов входных данных по исходным выходным файлам. Например, входной файл с 13 запусками будет записывать 5 запусков в файл 1 и 8 запусков в файл 2.
На практике входной файл не будет иметь точное количество прогонов, необходимое для идеального распределения. Один из способов справиться с этим - дополнить фактическое распределение воображаемыми «фиктивными прогонами», чтобы смоделировать идеальное распределение прогонов.[1] Пробный запуск ведет себя как пробег без записей. Объединение одного или нескольких фиктивных прогонов с одним или несколькими реальными прогонами просто объединяет реальные прогоны, а объединение одного или нескольких фиктивных прогонов без реальных прогонов приводит к одному фиктивному прогону. Другой подход - имитировать фиктивные прогоны по мере необходимости во время операций слияния.[4].
«Оптимальные» алгоритмы распределения требуют заранее знать количество прогонов. В противном случае, в более распространенном случае, когда количество прогонов заранее неизвестно, используются алгоритмы «почти оптимального» распределения. Некоторые алгоритмы распределения включают перегруппировку прогонов.[5] Если количество прогонов известно заранее, перед началом фаз слияния необходимо только частичное распределение. Например, рассмотрим дело из трех файлов, начиная с п работает в File_1. Определять Fя = Fя−1 + Fя−2 как яth Число Фибоначчи. Если п = Fя, затем переместите Fя−2 бежит в File_2, оставляя Fя−1 остается на File_1, идеальное распределение пробега. Если Fя < п < Fя+1, двигаться п−Fя бежит к File_2 и Fя+1−п работает в File_3. Первая итерация слияния сливает п−Fя запускается из File_1 и File_2, добавляя п−Fя объединенные пробеги к Fя+1−п пробеги уже перенесены в File_3. File_1 заканчивается Fя−2 остается, File_2 очищается, а File_3 заканчивается Fя−1 работает, опять же идеальное распределение пробега. Для 4 или более файлов математика более сложная, но концепция та же.
Сравнение с обычной сортировкой слиянием
После начального распределения обычная сортировка слиянием с использованием 4 файлов сортирует 16 прогонов отдельных записей в 4 итерациях всего набора данных, перемещая в общей сложности 64 записи, чтобы отсортировать набор данных после первоначального распределения. Сортировка многофазным слиянием с использованием 4 файлов будет отсортировать 17 запусков отдельных записей за 4 итерации, но поскольку каждая итерация, но последняя итерация перемещает только часть набора данных, она перемещает всего 48 записей, чтобы отсортировать набор данных после начальной распределение. В этом случае обычный коэффициент сортировки слиянием равен 2,0, а общий коэффициент многофазности составляет ≈2,73.
Чтобы объяснить, как коэффициент уменьшения связан с производительностью сортировки, используются следующие уравнения коэффициента уменьшения:
сокращение_factor = exp (число_выполнений * журнал (число_выпусков) / количество_проходов) run_move_count = число_выпусков * журнал (число_выпусков) / журнал (коэффициент_снижения) run_move_count = число_выпусков * log_reduction_factor (число)
Используя уравнение подсчета ходов для приведенных выше примеров:
- обычная сортировка слиянием → ,
- многофазная сортировка слиянием → .
Вот таблица эффективных коэффициентов уменьшения для многофазной и обычной сортировки слиянием, перечисленных по количеству файлов на основе фактических сортировок из нескольких миллионов записей. Эта таблица примерно соответствует коэффициенту уменьшения для перемещенных таблиц набора данных, показанных на рис. 3 и 4 из многофазное слияние sort.pdf
# файлы | средняя доля данных на итерацию | | коэффициент уменьшения многофазности на данных идеального размера | | | обычный понижающий коэффициент для данных идеального размера | | | | 3,73 1,94 1,41 (квадрат 2) 4,63 2,68 2,005 0,58 3,20 2,45 (квадрат 6) 6,56 3,56 3,007 0,55 3,80 3,46 (квадрат 12) 8 .54 3,95 4,009 .53 4,07 4,47 (квадрат 20) 10 .53 4,15 5,0011 .53 4,22 5,48 (sqrt 30) 12 .53 4,28 6,0032 .53 4,87 16,00
В общем, многофазная сортировка слиянием лучше, чем обычная сортировка слиянием, когда файлов меньше 8, в то время как обычная сортировка слиянием начинает улучшаться примерно при 8 или более файлах.[6][7]
Рекомендации
- ^ а б Дональд Кнут, Искусство программирования, Том 3, Аддисон Уэсли, 1973, алгоритм 5.4.2D.
- ^ «Архивная копия». Архивировано из оригинал на 2012-11-22. Получено 2010-01-31.CS1 maint: заархивированная копия как заголовок (связь)
- ^ «Внешняя сортировка». Архивировано из оригинал на 2016-01-28. Получено 2016-01-22.
- ^ https://www.fq.math.ca/Scanned/8-1/lynch.pdf
- ^ http://i.stanford.edu/pub/cstr/reports/cs/tr/76/543/CS-TR-76-543.pdf
- ^ http://bluehawk.monmouth.edu/rclayton/web-pages/s06-503/esort.html
- ^ http://www.mif.vu.lt/~algis/dsax/DsSort.pdf
дальнейшее чтение
- Брэдли, Джеймс (1982), Методы работы с файлами и базами данных, Холт, Райнхарт и Уинстон, ISBN 0-03-058673-9
- Рейнольдс, Сэмюэл В. (август 1961 г.), "Обобщенный алгоритм многофазного слияния", Коммуникации ACM, Нью-Йорк, Нью-Йорк: ACM, 4 (8): 347–349, Дои:10.1145/366678.366689
- Седжвик, Роберт (1983), Алгоритмы, Эддисон-Уэсли, стр.163–165, ISBN 0-201-06672-6