Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Оценка надежности кластерной суперкомпьютерной конфигурации


https://doi.org/10.29235/1561-8358-2019-64-3-347-358

Полный текст:


Аннотация

Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера.
Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера.
Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов).
Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.


Об авторах

Л. И. Кульбак
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Кульбак Леонид Игоревич – кандидат технических наук, доцент, ведущий научный сотрудник

ул. Сурганова, 6, 220012, Минск



О. П. Чиж
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Чиж Олег Петрович – кандидат физико-математических наук, заведующий лабораторией высокопроизводительных систем

ул. Сурганова, 6, 220012, Минск



Н. Н. Парамонов
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Парамонов Николай Николаевич – кандидат технических наук, доцент, ведущий научный сотрудник

ул. Сурганова, 6, 220012, Минск



А. Г. Рымарчук
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Рымарчук Александр Григорьевич – главный конструктор проекта

ул. Сурганова, 6, 220012, Минск



Т. С. Мартинович
Объединенный институт проблем информатики Национальной академии наук Беларуси
Беларусь

Мартинович Татьяна Сергеевна – научный сотрудник

ул. Сурганова, 6, 220012, Минск



Список литературы

1. Анищенко, В.В. Модели надежности кластерных вычислительных систем / В. В. Анищенко, Л.И. Кульбак, Т. С. Мартинович // Вес. Нац. акад. навук Беларусi. Cер. фiз.-тэхн. навук. – 2008. – № 1. – С. 89–99.

2. Cisco SFS M7000E InfniBand Blade Switch for Dell M1000E [Электронный ресурс]. – Режим доступа: https://www.cisco.com/c/en/us/products/collateral/switches/sfs-m7000e-infniband-switch/ – C. 38–45. – Дата доступа: 11.01.2018

3. Сравнение кластера надежности и «обычного» сервера [Электронный ресурс]. – Режим доступа: http://www.team.ru/server/stbl_compare.shtml – Дата доступа: 24.08.2018

4. Козлов, Б.А. Краткий справочник по расчету надежности радиоэлектронной аппаратуры / Б. А. Козлов, И. А. Ушаков. – М.: Совет. радио, 1975. – 472 с.

5. Анищенко, В. В. Выбор стратегии восстановления работоспособности кластерной вычислительной системы / В. В. Анищенко, Л.И. Кульбак, Т.С. Мартинович // Информатика. – 2007. – № 1 (13). – С. 114–122.


Дополнительные файлы

Просмотров: 281

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1561-8358 (Print)
ISSN 2524-244X (Online)