Разработка программных систем

Задания к лабораторной работе по программированию средствами MPI

Внимание! В данный момент кластер МГТУ извне недоступен (только с IP-адресов, принадлежащих МГТУ, проверить можно командой whois). На домашний (локальный) компьютер надо установить MPICH (ссылка на сайт источника дана ниже).
В Ubuntu наберите команду mpicc и получите подсказку для установки mpich.

Требования к отчету по лабораторной работе приведены в конце страницы.

Внимание! Разработанные программы, решающие дифференциальные уравнения, должны демонстрировать работоспособность в "неграфическом" режиме для пространственных сеток размерностью не менее 10000000 узлов для тысяч временных слоев. Это, в частности, означает, что недопустимо хранение в ОП всех результатов для всех временных слоев (шагов интегрирования).

При выполнении данной лабораторной работы используется виртуальный вычислительный кластер МГТУ.
Для получения терминального доступа к вычислительному кластеру необходимо выполнить команду

ssh user@rk6.clusters.bmstu.ru

, где user - одно из имен student1, student2, ..., student9. Работать одновременно под одним именем нескольким пользователям настоятельно не рекомендуется.

Для загрузки на кластер исходных файлов программ необходимо использовать команду

sftp user@rk6.clusters.bmstu.ru

Компиляция и компоновка исполняемого файла прикладной программы выполняется командой

mpicc -o prg prg.c

Запуск исполняемого файла на 4 узлах кластера по 1 процессу на узел осуществляется командой

mpiexec -f ~/.machinefile -n 4 ./prg

Перед выходом с кластера обязательно удалить все временные файлы!!!

Для визуализации результатов решения задачи идеально подходит стандартная для UNIX рутина gnuplot.
Для перенаправления графического вывода gnuplot (и любой другой графической программы, например, kedit) на экран локальной машины пользователя необходимо:
- на локальной машине выполнить команду "xhost +" (разрешение локальному X-серверу принимать запросы от любого узла сети);
- на кластере выполнить команду "export DISPLAY=localIP:0.0", где localIP - IP-адрес локальной машины.

Для отладки MPI-программ в домашних условиях рекомендуется использовать свободную реализацию стандарта MPI - MPICH [ http://www.mcs.anl.gov/mpi/mpich/download.html].

Литература: Foster I. Designing and Building Parallel Programs. - http://www-unix.mcs.anl.gov/dbpp.

Внимание! Задания, помеченные верхним индексом "*", требуют изучения теоретического материала курса "Модели и методы принятия проектных решений".

1. Разработать средствами MPI параллельную программу решения (численного интегрирования) одномерной нестационарной краевой задачи методом конечных разностей с использованием явной вычислительной схемы.

Дан цилиндрический стержень длиной L и площадью поперечного сечения S. Цилиндричекая поверхность стержня теплоизолирована. На торцевых поверхностях стержня слева и справа могут иметь место граничный условия первого и второго родов. Распределение поля температур по длине стержня описывается уравнением теплопроводности

dT/dt = a_T*d²T/dx²+g_T

, где

a_T=lambda/(C_T*p) - коэффициент температуропроводности;

lambda - коэффициент теплопроводности среды;

C_T - удельная теплоемкость единицы массы;

p - плотность среды;

g_T=G_T/(C_T*p) - приведенная скорость превращения тепловой энергии в другие виды энергии, в нашем случае g_T=0.

В явной вычислительной схеме МКР для аппроксимации производной температуры по времени в узле, принадлежащем i-ому временному и j-ому пространственному слоям, используется "разница вперед":

dT/dt|ⁱ_j = (Tⁱ⁺¹_j-Tⁱ_j)/h_t

Для аппроксимации второй производной температуры по пространственной координате x используется следующая формула:

d²T/dx²|ⁱ_j = (Tⁱ_j+1-2*Tⁱ_j+Tⁱ_j-1)/h²_x

Тогда алгебраизированное уравнение теплопроводности для узла, принадлежащего i-ому временному и j-ому пространственному слоям, принимает следующий вид (g_T=0):

(Tⁱ⁺¹_j-Tⁱ_j)/h_t = a_T*(Tⁱ_j+1-2*Tⁱ_j+Tⁱ_j-1)/h²_x

Такой вид уравнения позволяет в явном виде выразить единственную неизвестную:

Tⁱ⁺¹_j = a_T*(Tⁱ _j+1-2*Tⁱ_j+Tⁱ _j-1)*h_t/h²_x+Tⁱ_j

Что, в свою очередь, дает возможность просто организовать вычислительный процесс в виде "цикл в цикле" (без деталей, связанных с граничными условиями различного рода):

for (i=0; i<n; i++)
  for (j=0; j<m; j++)
    Tⁱ⁺¹_j = ...

Напомним, что значения T⁰_j известны из начальных условий. Здесь n=T_кон/h_t

Требуется разработать параллельную программу, в которой каждый процесс ответственнен за расчеты для "полосы" расчетной сетки шириной в m/N пространственных узлов, где N - число процессов. Программа должна демонстрировать ускорение по сравнению с последовательным вариантом. Предусмотреть визуализацию результатов посредством утилиты gnuplot. При этом утилита gnuplot должна вызываться отдельной командой после окончания расчета.

Методические указания.

Тщательно (лучше графически, используя шаблон разностной схемы) проанализировать работу последовательного (непараллельного) алгоритма.
Определить, какими величинами и в каком порядке должны обмениваться процессы в параллельной программе.
Обеспечить возможность запуска программы для произвольного числа процессов N и произвольного количества пространственных слоев m (m должно быть кратно 8).
Вид граничных условий и численные значения параметров стержня для конкретного варианта задания получить у преподавателя.
Пару подряд идущих операций MPI_Send и MPI_Recv с одним и тем же партнером при одинаковости длины и типа данных можно эффективно заменить одной MPI_Sendrecv.

Свойства некоторых материалов представлены в таблице.

Материал	Плотность кг/м³	Удельная теплоемкость дж/(кг*град)	Коэффициент теплопроводности вт/(м*град)
Алюминий	2700	880	210
Дерево	500	1700	0.4
Золото	19300	130	313
Медь	8900	390	390
Серебро	10500	235	420
Сталь	7800	460	45

Узловой метод для формирования математической модели электрической системы использует уравнение второго закона Кирхгофа - сумма токов в узле равна нулю. Это уравнение для любого i-ого узла в цепочке (кроме крайних) имеет вид

I_Rл - I_Rп - I_C =0, где

I_Rл=(U_i-1-U_i)/R - электрический ток через "левое" сопротивление;

I_Rп=(U_i-U_i+1)/R - электрический ток через "правое" сопротивление;

I_C=C*dU_i/dt - электрический ток через ёмкость;

U_i - электрический потенциал узла с номером i.

Явный метод Эйлера для численного интегрирования ОДУ подразумевает аппроксимацию производных по времени "разностями вперёд", поэтому дискретизированное уравнение баланса токов в узле принимает следующий вид:

(Uⁿ_i-1-Uⁿ_i)/R - (Uⁿ_i-Uⁿ_i+1)/R - C*(Uⁿ⁺¹_i-Uⁿ_i)/h_t, где

h_t - величина шага численного интегрирования.

Из него легко выразить единственную неизвестную величину

Uⁿ⁺¹_i=(Uⁿ_i-1-2*Uⁿ_i +Uⁿ_i+1)*h_t/(R*C)-Uⁿ_i

Что, в свою очередь, дает возможность просто организовать вычислительный процесс в виде "цикл в цикле" (без деталей, связанных с крайними узлами):

for (n=0; n<N; n++)
  for (i=0; i<M; i++)
    Uⁿ⁺¹_i = ...

Напомним, что значения U⁰_i известны из начальных условий. Здесь N=T_кон/h_t

9. Разработать средствами MPI параллельную программу моделирования распространения электрических сигналов в двумерной прямоугольной сетке RC-элементов (одномерный аналог которых представлен на рис. выше). Метод формирования математической модели - узловой. Метод численного интегрирования - явный Эйлера. Внешнее воздействие - источники тока и напряжения. Количество (кратное 8) элементов по каждой из осей в сетке, временной интервал моделирования - параметры программы. Программа должна демонстрировать ускорение по сравнению с последовательным вариантом. Предусмотреть визуализацию результатов посредством утилиты gnuplot. При этом утилита gnuplot должна вызываться отдельной командой после окончания расчета.

10. Разработать средствами MPI параллельную программу решения уравнения струны методом конечных разностей с использованием явной вычислительной схемы. Временной интервал моделирования и количество (кратное 8) узлов расчетной сетки - параметры программы.
Уравнение струны имеет следующий вид:

d²z/dt² = a²*d²z/dx²+f(x,t)

, где t - время, x - пространственная координата, вдоль которой ориентирована струна, z - отклонение (малое) точки струны от положения покоя, a - фазовая скорость, f(x,t) - внешнее "силовое" воздействие на струну.
Предусмотреть возможность задания ненулевых начальных условий и ненулевого внешнего воздействия. Количество элементов в сетке и временной интервал моделирования - параметры программы. Программа должна демонстрировать ускорение по сравнению с последовательным вариантом. Предусмотреть визуализацию результатов посредством утилиты gnuplot. При этом утилита gnuplot должна вызываться отдельной командой после окончания расчета.

11. Разработать средствами MPI параллельную программу решения уравнения прямоугольной мембраны методом конечных разностей с использованием явной вычислительной схемы. Временной интервал моделирования и количество (кратное 8) узлов по осям x и y расчетной сетки - параметры программы.
Уравнение мембраны имеет следующий вид:

d²z/dt² = a²*(d²z/dx²+d²z/dy²)+f(x,y,t)

, где t - время, x, y - пространственные координаты, z - отклонение (малое) точки мембраны от положения покоя, a - фазовая скорость, f(x,y,t) - внешнее "силовое" воздействие на мембрану перпендикулярное ее плоскости.
Предусмотреть возможность задания ненулевых начальных условий и ненулевого внешнего воздействия. Количество элементов в сетке, временной интервал моделирования и количество параллельных процессов - параметры программы. Программа должна демонстрировать ускорение по сравнению с последовательным вариантом. Предусмотреть визуализацию результатов посредством утилиты gnuplot. При этом утилита gnuplot должна вызываться отдельной командой после окончания расчета.

Представлении матриц в языке С

Отмечается повальное использование студентами в программах на языке С для представления прямоугольных матриц конструкций вида

double matrix[N][M];

где N и M - константы.
Этот способ кажется удобным в программировании, поскольку позволяет адресоваться к элементам матрицы "естественным" способом - matrix[i][j]. Однако необходимо осознавать, что такому представлению присущ ряд серьёзных недостатков.

Размерность матриц должна быть задана в исходном коде программы до её компиляции.
Невозможно освободить занимаемую матрицей память в ситуации, когда её содержимое становится ненужным.
Работа с двумя индексами матрицы-аргумента в универсальных функциях невозможна (т.е. конструкция matrix[i][j] в функциях недопустима, поскольку в момент компиляции размер матрицы неизвестен).

Поэтому в лабораторных работах рекомендуется для хранения прямоугольных матриц размером NxM использовать одномерный массив:

double *matrix;
. . .
matrix = (double *) calloc (N*M, sizeof(double));

Для доступа к элементу в i-ой строке и j-ом столбце матрицы применяется конструкция matrix[M*i+j].

Генерация тестовой системы ЛАУ

При невозможности использования готовых матриц коэффициентов из хранилища матрицу коэффициентов и вектор правых частей системы ЛАУ можно сгенерировать самостоятельно по следующей простой схеме.

Положить равными 1 все элементы вектора неизвестных X (это впоследствии облегчит контроль правильности решения системы ЛАУ).
Присвоить всем элементам матрицы коэффициентов A случайные значения из диапазона, скажем, -1 ... 1.
Рассчитать значения всех элементов вектора правых частей B путем перемножения A и X (при единичном векторе X перемножение сводится к суммированию элементов строк A).

Внимание! Размерность генерируемых систем не должна быть "игрушечной", количество неизвестных должно превышать 1000.

Система ЛАУ со структированной матрицей коэффициентов

Матрица называется блочно-диагональной с окаймлением, если она имеет следующий вид (здесь A_ij - блоки, а не отдельные элементы).

A₁₁	0	...	0	A_1N
0	A₂₂	...	0	A_2N
...	...	...	...	...
0	0	...	A_N-1,N-1	A_N-1,N
A_N1	A_N2	...	A_N,N-1	A_NN

Решение методом Гаусса системы ЛАУ с матрицей коэффициентов такой структуры может быть легко распараллелено.
Во-первых, очевидно, что независимо друг от друга может быть выполнено приведение к верхнетреугольному виду в прямом ходе Гаусса диагональных блоков A₁₁ ... A_N-1,N-1 во всех горизонтальных лентах матрицы (кроме последней).
Во-вторых, параллельно (и это менее очевидно) может быть выполнено исключение элементов блоков нижнего окаймления A_N1 ... A_N,N-1 в том же прямом ходе Гаусса.
В-третьих, очевидно, что после прямого и обратного хода Гаусса по самой нижней ленте системы ЛАУ, возможно независимое выполнение обратного хода по каждой оставшейся ленте.

Эффект от распараллеливания

Параллельные программы, предназначенные для решения вычислительных задач (систем алгебраических и дифференциальных уравнений), должны продемонстрировать сокращение времени решения.
Для этого, во-первых, необходимо замерять время выполнения программ. Здесь полезной может оказаться команда time (1). Однако эта команда выдаёт время выполнения программы целиком, нас же больше интересует "чистое" время решения без накладных расходов, связанных с генерацией тестовых матриц, вводом-выводом, подготовкой данных для gnuplot и т.п. Поэтому для определения времени исполнения отдельных этапов вычислительного процесса имеет смысл использовать функцию gettimeofday, обеспечивающую точность замера в 1 мкс. Кроме того удобно обложить #ifdef'ами все фрагменты текста программы, не связанные непосредственно с целевыми вычислениями.
Во-вторых, для выявления эффекта от распараллеливания необходимо кроме параллельной версии программы иметь и последовательный вариант. В некоторых заданиях (например, связанных с МКР) запуск программы в рамках одного потока или одного процесса MPI даёт временные затраты почти сопоставимые с затратами последовательной версии. В других (в первую очередь это относится к решению системы ЛАУ с блочно-диагональной матрицей коэффициентов) последовательную версию программы приходиться создавать специально. При многопотоковом программировании параллельная программа легко превращается в последовательную просто поочерёдным запуском потоков, в случае же MPI-программы ситуация более сложная.
Внимание. Существует тонкий момент в оценке эффекта от распараллеливания при решении системы ЛАУ с блочно-диагональной матрицей коэффициентов. Дело в том, что увеличение (напр., удвоение) количества параллельно исполняемых потоков/процессов приводит к уменьшению количества элементов в диагональных блоках (в 4 раза), а, следовательно, и к уменьшению общего числа ненулевых элементов в матрице коэффициентов. А это снижение общего числа ненулевых элементов само по себе (без учёта параллельности) обеспечивает ускорение решения (в идеале, в 4 раза).

Содержание отчета

Текст задания на лаб. работу
Описание структуры программы и реализованных способов взаимодействия процессов (с рисунком)
Описание основных используемых структур данных
Блок-схема программы согласно ГОСТ и пояснения к ней
Примеры результатов работы программы
Текст программы с исчерпывающими комментариями