Windows 7, XP

Как я могу выровнять параллельный линейный конгруэнтный генератор псевдослучайных чисел для максимального периода.

 Как я могу выровнять параллельный линейный конгруэнтный генератор псевдослучайных чисел для максимального периода.
Генераторы псевдослучайных чисел могут работать по разным алгоритмам. Одним из простейших генераторов является так называемый линейный конгруэнтный генератор , который для вычисления очередного числа k i использует формулу

k i =(a*k i-1 +b)mod c,

где а, b, с - некоторые константы , a k i-1 - предыдущее псевдослучайное число . Для получения k 1 задается начальное значение k 0 . Возьмем в качестве примера a=5,b=3,c=11 и пусть k 0 = 1 . В этом случае мы сможем по приведенной выше формуле получать значения от 0 до 10 (так как с = 11 ). Вычислим несколько элементов последовательности:

k 1 = (5 * 1 + 3) mod 11 = 8; k 2 = (5 * 8 + 3) mod 11 = 10; k 3 = (5 * 10 + 3) mod 11 = 9; k 4 = (5 * 9 + 3) mod 11 = 4; k 5 = (5 * 4 + 3) mod 11 = 1.

Полученные значения (8, 10, 9, 4, 1) выглядят похожими на случайные числа. Однако следующее значение k 6 будет снова равно 8 :

k 6 = (5 * 1 + 3) mod 11 = 8,

а значения k 7 и k 8 будут равны 10 и 9 соответственно:

k 7 = (5 * 8 + 3) mod 11 = 10; k 8 = (5 * 10 + 3) mod 11 = 9.

Выходит, наш генератор псевдослучайных чисел повторяется, порождая периодически числа 8, 10, 9, 4, 1 . К сожалению, это свойство характерно для всех линейных конгруэнтных генераторов. Изменяя значения основных параметров a, b и c , можно влиять на длину периода и на сами порождаемые значения k i . Так, например, увеличение числа с в общем случае ведет к увеличению периода. Если параметры a, b и c выбраны правильно, то генератор будет порождать случайные числа с максимальным периодом, равным c . При программной реализации значение с обычно устанавливается равным 2 b-1 или 2 b , где b - длина слова ЭВМ в битах.

Достоинством линейных конгруэнтных генераторов псевдослучайных чисел является их простота и высокая скорость получения псевдослучайных значений. Линейные конгруэнтные генераторы находят применение при решении задач моделирования и математической статистики, однако в криптографических целях их нельзя рекомендовать к использованию, так как специалисты по криптоанализу научились восстанавливать всю последовательность ПСЧ по нескольким значениям. Например, предположим, что противник может определить значения k 0 , k 1 , k 2 , k 3 . Тогда:

k 1 =(a*k 0 +b) mod c k 2 =(a*k 1 +b) mod c k 3 =(a*k 2 +b) mod c

Решив систему из этих трех уравнений, можно найти a, b и c .

Для получения псевдослучайных чисел предлагалось использовать также квадратичные и кубические генераторы:

k i =(a 1 2 *k i-1 +a 2 *k i-1 +b) mod c k i =(a 1 3 *k i-1 +a 2 2 *k i-1 +a 3 *k i-1 +b) mod c

Однако такие генераторы тоже оказались непригодными для целей криптографии по той же самой причине "предсказуемости".

Метод Фибоначчи с запаздыванием

Известны и другие схемы получения псевдослучайных чисел.

Метод Фибоначчи с запаздываниями (Lagged Fibonacci Generator ) - один из методов генерации псевдослучайных чисел. Он позволяет получить более высокое "качество" псевдослучайных чисел.

Наибольшую популярность фибоначчиевы датчики получили в связи с тем, что скорость выполнения арифметических операций с вещественными числами сравнялась со скоростью целочисленной арифметики, а фибоначчиевы датчики естественно реализуются в вещественной арифметике .

Известны разные схемы использования метода Фибоначчи с запаздыванием. Один из широко распространённых фибоначчиевых датчиков основан на следующей рекуррентной формуле:

где k i - вещественные числа из диапазона , a, b - целые положительные числа, параметры генератора. Для работы фибоначчиеву датчику требуется знать max{a,b} предыдущих сгенерированных случайных чисел. При программной реализации для хранения сгенерированных случайных чисел необходим некоторый объем памяти, зависящих от параметров a и b .

Пример . Вычислим последовательность из первых десяти чисел, генерируемую методом Фибоначчи с запаздыванием начиная с k 5 при следующих исходных данных: a = 4, b = 1, k 0 =0.1; k 1 =0.7; k 2 =0.3; k 3 =0.9; k 4 =0.5 :

k 5 = k 1 - k 4 = 0.7 - 0.5 = 0.2; k 6 = k 2 - k 5 = 0.3 - 0.2 = 0.1; k 7 = k 3 - k 6 = 0.9 - 0.1 = 0.8; k 8 = k 4 - k 7 + 1 =0.5 - 0.8 + 1 = 0.7; k 9 = k 5 - k 8 + 1 =0.2 - 0.7 + 1 = 0.5; k 10 = k 6 - k 9 + 1 =0.1 - 0.5 + 1 = 0.6; k 11 = k 7 - k 10 = 0.8 - 0.6 = 0.2; k 12 = k 8 - k 11 = 0.7 - 0.2 = 0.5; k 13 = k 9 - k 12 + 1 =0.5 - 0.5 + 1 = 1; k 14 = k 10 - k 13 + 1 =0.6 - 1 + 1 = 0.6.

Видим, что генерируемая последовательность чисел внешне похожа на случайную. И действительно, исследования подтверждают, что получаемые случайные числа обладают хорошими статистическими свойствами.(a,b) = (17,5) рекомендуются для простых приложений. Значения (a,b) = (55,24) позволяют получать числа, удовлетворительные для большинства криптографических алгоритмов, требовательных к качеству случайных чисел. Значения (a,b) = (97,33) позволяют получать очень качественные случайные числа и используются в алгоритмах, работающих со случайными векторами высокой размерности.

Генераторы ПСЧ, основанные на методе Фибоначчи с запаздыванием, использовались для целей криптографии. Кроме того, они применяются в математических и статистических расчетах, а также при моделировании случайных процессов. Генератор ПСЧ, построенный на основе метода Фибоначчи с запаздыванием, использовался в широко известной системе Matlab.

Но как я могу обеспечить, чтобы все случайные числовые потоки имели это максимальное свойство? Что касается MPI, как мне включить rank и size для создания максимальных периодов с использованием линейного конгруэнтного метода? Было бы проще использовать Lagged Fibonacci или Mersenne Twister для создания более длинных параллельных случайных потоков?

8

4 ответы

Существует очень хорошая обзорная обзорная статья Katzgrabber, Случайные числа в научных вычислениях: введение , в котором я указываю людям, кто хочет быть пользователь PRNG для научных вычислений. Линейные конгруэнтные генераторы бывают быстрыми, но это все, что у них есть для них; у них короткие периоды, и они могут легко ошибиться; вполне разумно выглядящие комбинации a, c и m могут заканчиваться ужасно коррелированными выходами, даже если вы удовлетворяете обычным требованиям между a, c и m.

Хуже того, в одном общем случае, когда m является степенью двух (поэтому операция mod быстро), биты более низкого порядка имеют гораздо более короткий период, чем последовательность в целом, поэтому, если вы выполняете rand ()% N, у вас есть еще более короткий период, чем вы ожидали.

Как правило, генераторы с запаздыванием-фибоначчи, MT и WELL имеют гораздо лучшие свойства, и они все еще довольно быстрые.

С точки зрения посева параллельно метод Джека Поулсона хорош, потому что он дает четко определенную последовательность чисел, равномерно распределенных между процессорами. Если это не имеет значения, вы можете сделать все возможное, чтобы засеять различные ПРНГ; в той же самой статье говорится о том, что многие люди придумали независимость, хешируя номер задачи PID или MPI со временем. Конкретная формула, предложенная там

Long seedgen(void) { long s, seed, pid; pid = getpid(); s = time (&seconds); seed = abs(((s*181)*((pid-83)*359))%104729); return seed; }

У меня нет особых мнений об этой конкретной реализации, но общий подход, безусловно, разумный.

Простая идея для распространения типичного последовательного RNG над приличным количеством потоков состоит в том, чтобы один поток как можно быстрее продвигал семя и отправлял только тысячу или около того семян в память. Затем каждый из ваших других потоков забирает один из этих интервальных ссылочных семян и обрабатывает 1000 значений в этом блоке, то есть снова регенерирует 1000 семян в блоке, генерирует их псевдоресурсные розыгрыши, а затем выполняет любую другую обработку вашей задачи.

Это работает, потому что для RNG, которые не вычисляют все это (LCG, безусловно, один, но многие другие должны быть в этой категории), реальное узкое место отправляет семена в память (а также, возможно, последующую обработку). Если вы запускаете LCG, не отправляя ничего в память, все это должно оставаться в регистрах CPU и быть очень быстрым. Даже для более сложного RNG вы должны оставаться в кеше L1 и быть очень быстрым.

Я использовал этот очень простой подход с LCG, который по старым причинам мы должны сохранить. В основном мы получаем линейное ускорение до потоков 4-8 на типичной многоядерной рабочей станции. Но теперь я попробую метод от ответа Джека Поулсона и надеюсь, что он будет еще быстрее:).

OTOH, я считаю, что этот простой трюк должен работать для других неотъемлемых последовательных ГСЧ.

Следующий большой шаг в разработке генераторов случайных чисел был сделан Д. Лемером (D.H. Lehmer) в 1949 году. Предложенный им генератор носит название линейного конгруэнтного метода (linear congruential method). Выберите три числа т, а и с и начальное число Х0. Для генерации последовательности случайных чисел используется следующая формула:

Хл+і = (аХ„ + с) mod т

Операция взятия по модулю т (mod т) представляет собой вычисление остатка от деления числа на т, например, 24 mod 10 = 4.

При удачном выборе начальных чисел генерируемая последовательность будет содержать случайные числа. Например, стандартный генератор случайных чисел в Delphi использует значения а = 134775813 ($8088405), с = 1 и т = 232, а значение Х0 выбирается самим пользователем. (Значение начального числа содержится в глобальной переменной RandSeed. Его можно задавать напрямую или использовать процедуру Randomize для вычисления его на основе показаний системных часов.) Следует отметить, что если в двух разных точках последовательности получено одно и то же значение х, то последовательность в этих двух точках должна полностью повторяться, поскольку алгоритм детерминированный. Так как в формуле используется операция определения остатка от деления, все значения в последовательности будут меньше га, т.е. будут находиться в диапазоне от 0 до т-1. Следовательно, последовательность будет повторяться после не более чем т чисел. При неудачном выборе значения а, с и т повторение последовательности может начаться гораздо раньше. В качестве простого примера можно привести случай, когда а = 0: вся последовательность сводится к повторению значения параметра с -

Каким образом можно выбрать удачные значения для а, с и ті В литературе содержится немало размышлений, описаний и доказательств. Как правило, значение параметра т выбирается как можно больше, чтобы цикл повторяемости был также как можно большим. Нужно выбирать его, как минимум, равным размеру слова операционной системы (другими словами, для 32-разрядных операционных систем т выбирается равным 31 или 32 бита). Значение параметра а выбирается таким образом, чтобы оно было взаимно простым со значением числа т (два числа являются взаимно простыми, если их наибольший общий делитель равен 1). Значение с, как правило, берется равным 0 или 1, несмотря на то, что общее правило гласит, что должно выбираться ненулевое значение, взаимно простое со значением параметра т.

В случае если значение с равно 0, генератор называется мультипликативным линейным конгруэнтным генератором случайных чисел (multiplicative linear congruential generator). Чтобы гарантировать, что цикл повторения последовательности максимален, необходимо в качестве значения параметра т выбирать простое число. Самым известным генератором подобного рода является так называемый минимальный стандартный генератор случайных чисел (minimal standard random number generator), предложенный Стивеном Парком (Stephen Park) и Кей-том Миллером (Keith Miller) в 1988 году. Для него а = 16807, а т = 2147483647 (или 231 - 1). После разработки этого генератора было проведено большое количество статистических тестов, и генератор прошел большинство из них (несмотря на то что предложенный генератор обладает определенными нежелательными свойствами, которые мы рассмотрим чуть ниже).

Мультипликативные линейные конгруэнтные генераторы случайных чисел имеют одну аномалию: они никогда не дают числа 0. (Это объясняется тем, что, во-первых, т представляет собой простое число, во-вторых, a mod т не равно нулю, и, в-третьих, если начальное число не равно нулю, Х0 mod т тоже не равно нулю.) Следовательно, если генераторы никогда не дают числа 0, их нельзя назвать случайными. На практике невозможность генерации нуля, как правило, игнорируется, - в конце концов, в 32-разрядной операционной системе это всего лишь отсутствие всего одного числа из примерно 2 миллиардов.

При реализации минимального стандартного генератора случайных чисел (как, в общем-то, и любого другого) особое внимание необходимо уделить исключению возможности возникновения переполнения, поскольку значение текущего начального числа, умноженное на а, может легко превысить максимально допустимое значение для 32-битного целого числа. Если не позаботиться об исключении переполнения, возможно возникновение ошибок, которые негативно скажутся на достаточно хорошем генераторе случайных чисел. Для обработки случаев переполнения используется метод Шрейга (Schräge) (его описание в этой книге не приводится, но его можно найти в статье Парка и Миллера ).

Для сравнения и тестирования различных генераторов случайных чисел будет создана иерархия классов, базовый класс которой будет содержать виртуальный метод, инкапсулирующий основные функциональные возможности генератора, в частности, генерация случайного числа с плавающей запятой в диапазоне от 0 до 1 (мы будем пользоваться переменными типа double). Этот виртуальный метод будет перекрываться в дочерних классах, что позволит генерировать случайное число в соответствии с алгоритмами дочерних классов. В базовом классе метод будет применяться для создания других типов случайных чисел, например, случайных чисел целого типа не больше определенного значения или случайного числа из определенного диапазона.

Наличие иерархии классов генераторов случайных чисел дает еще одно преимущество. Поскольку данные для генератора случайных чисел содержатся исключительно внутри самого объекта, в одном приложении можно будет использовать несколько независимых генераторов. Стандартная функция Random имеет одно и только одно начальное значение, которое будет использоваться для всех вызовов функции в приложении. В ситуации, когда несколько различных процедур прибегают к услугам функции Random, очень сложно получить воспроизводимые результаты, поскольку отдельные вызовы будут влиять на получаемые случайные значения.

Листинг 6.2. Базовый класс генератора случайных чисел

Type TtdBasePRNG = class private FName: TtdNameString; protected procedure bError(aErrorCode: integer; const aMethodName: TtdNameString); public function As Double: double; virtual; abstract;

{-вернуть случайное число из диапазона от 0 включительно до 1

Исключительно} function AsLimitedDouble(aLower, aUpper: double) : double; {-вернуть случайное число из диапазона от aLower включительно до aUpper исключительно} function As Integer (aUpper: integer) : integer; {-вернуть случайное число из диапазона от 0 включительно до aUpper исключительно} property Name: TtdNameString read FName write FName; end; function TtdBasePRNG.AsLimitedDouble(aLower, aUpper: double) : double; begin if (aLower < 0.0) or (aUpper < 0.0) or (aLower >= aUpper) then bError(tdeRandRangeError, 1 AsLimitedDouble"); Result:= (AsDouble * (aUpper - aLower)) + aLower; end; function TtdBasePRNG. As Integer (aUpper: integer) : integer; begin if (aUpper <= 0) then bError(tdeRandRangeError, "AsInteger"); Result:= Trunc(AsDouble * aUpper) ; end; procedure TtdBasePRNG. bError (aErrorCode: integers-const aMethodName: TtdNameString); begin raise EtdRandGenException. Create (FmtLoadStr(aErrorCode, )) ; end;

В листинге 6.2 приведен код базового класса генератора случайных чисел. В нем определен виртуальный метод AsDouble, который возвращает случайное число х в диапазоне 0<х< 1. Кроме того, в классе объявлены два простых метода, один из которых возвращает случайное число с плавающей запятой из заданного диапазона значений, а второй - из диапазона значений от 0 до некоторой заданной верхней границы (аналогично тому, как функция Random (Limit) использует целое значение Limit). Теперь, когда базовый класс определен, для реализации алгоритма Парка и Миллера можно объявить дочерний класс.

Листинг 6.3. Минимальный стандартный генератор псевдослучайных чисел

Type TtdMinStandardPRNG = class (TtdBasePRNG) private FSeed: longint; protected procedure msSetSeed(aValue: longint); public constructor Create(aSeed: longint); function AsDouble: double; override; property Seed: longint read FSeed write msSetSeed; end; constructor TtdMinStandardPRNG. Create (aSeed: longint); begin inherited Create; Seed:= aSeed; end;

function TtdMinStandardPRNG.AsDouble: double; const

A = 16807; m = 2147483647; q= 127773; {равно m diva} r = 2836; {равно m mod a} OneOverM: double = 1.0V / 2147483647.0; var k: longint; begin k:= FSeed div q; FSeed:= (a * (FSeed - (k * q))) - (k * r) ; if (FSeed <= 0) then inc(FSeed, m) ; Result:= FSeed * OneOverM; end; function GetTimeAsLong: longint; {$IFDEF Delphi 1} assembler; asm

Call DOS3Call mov ax, cx end; {$ENDIF] {$IFDEF Delph±2Plus) begin Result:= longint(GetTickCount); end; {$ENDIF) {$IFDEF KylixlPlus) var T: TTime_t; begin _time(@T); Result:= longint(T); end;

{$ENDIF) procedure TtdMinStandardPRNG.ms Set Seed (aValue: longint); const

m = 2147483647; begin if (aValue > 0) then FSeed: = aValue

else FSeed:= GetTimeAsLong; {убедиться, что значение начального числа находится в переделах от 0 до т-1

Включительно} if (FSeed >=m-l) then FSeed:= FSeed - (m - 1) + 1; end;

Как несложно заметить в коде метода AsDouble, метод Шрейга выглядит гораздо сложнее, нежели простая формула Xn+l = aXn mod т со значениями а = 16807 и т = 231- 1. Тем не менее, используя достаточно сложные математические выкладки, можно доказать его равенство приведенной формуле.

Кроме того, как уже упоминалось, в генераторе случайных чисел подобного типа использование нуля в качестве начального числа нежелательно, поскольку тогда бы все генерируемые значения были бы нулевыми. Поэтому метод msSetSeed использует значение 0 в качестве флага при необходимости установки начального числа по значению системных часов. К сожалению, для выполнения этой операции в 16- и 32-разрядных системах Windows используется разный код.

Создадим класс случайных чисел, который будет использовать системный генератор случайных чисел - функцию Random. В листинге 6.4 показан код метода AsDouble для такого класса.

Листинг 6.4. Использование в классе системной функции Random

Function TtdSystemPRNG.AsDouble: double; var OldSeed: longint; begin OldSeed:= System.RandSeed; System.RandSeed:= Seed; Result:= System.Random; Seed:= System. RandSeed ; System.RandSeed: = OldSeed; end;

Теперь, когда в нашем арсенале имеется два генератора случайных чисел, можно перейти к обсуждению методов тестирования их результатов.