Оценка надежности кластерной суперкомпьютерной конфигурации
https://doi.org/10.29235/1561-8358-2019-64-3-347-358
Аннотация
Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера.
Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера.
Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов).
Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.
Ключевые слова
Об авторах
Л. И. КульбакБеларусь
Кульбак Леонид Игоревич – кандидат технических наук, доцент, ведущий научный сотрудник
ул. Сурганова, 6, 220012, Минск
О. П. Чиж
Беларусь
Чиж Олег Петрович – кандидат физико-математических наук, заведующий лабораторией высокопроизводительных систем
ул. Сурганова, 6, 220012, Минск
Н. Н. Парамонов
Беларусь
Парамонов Николай Николаевич – кандидат технических наук, доцент, ведущий научный сотрудник
ул. Сурганова, 6, 220012, Минск
А. Г. Рымарчук
Беларусь
Рымарчук Александр Григорьевич – главный конструктор проекта
ул. Сурганова, 6, 220012, Минск
Т. С. Мартинович
Беларусь
Мартинович Татьяна Сергеевна – научный сотрудник
ул. Сурганова, 6, 220012, Минск
Список литературы
1. Анищенко, В.В. Модели надежности кластерных вычислительных систем / В. В. Анищенко, Л.И. Кульбак, Т. С. Мартинович // Вес. Нац. акад. навук Беларусi. Cер. фiз.-тэхн. навук. – 2008. – № 1. – С. 89–99.
2. Cisco SFS M7000E InfniBand Blade Switch for Dell M1000E [Электронный ресурс]. – Режим доступа: https://www.cisco.com/c/en/us/products/collateral/switches/sfs-m7000e-infniband-switch/ – C. 38–45. – Дата доступа: 11.01.2018
3. Сравнение кластера надежности и «обычного» сервера [Электронный ресурс]. – Режим доступа: http://www.team.ru/server/stbl_compare.shtml – Дата доступа: 24.08.2018
4. Козлов, Б.А. Краткий справочник по расчету надежности радиоэлектронной аппаратуры / Б. А. Козлов, И. А. Ушаков. – М.: Совет. радио, 1975. – 472 с.
5. Анищенко, В. В. Выбор стратегии восстановления работоспособности кластерной вычислительной системы / В. В. Анищенко, Л.И. Кульбак, Т.С. Мартинович // Информатика. – 2007. – № 1 (13). – С. 114–122.