Оценка надежности кластерной суперкомпьютерной конфигурации
https://doi.org/10.29235/1561-8358-2019-64-3-347-358
Анатацыя
Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера.
Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера.
Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов).
Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.
Ключ. словы
Аб аўтарах
Л. КульбакБеларусь
О. Чиж
Беларусь
Н. Парамонов
Беларусь
А. Рымарчук
Беларусь
Т. Мартинович
Беларусь
Спіс літаратуры
1. Анищенко, В.В. Модели надежности кластерных вычислительных систем / В. В. Анищенко, Л.И. Кульбак, Т. С. Мартинович // Вес. Нац. акад. навук Беларусi. Cер. фiз.-тэхн. навук. – 2008. – № 1. – С. 89–99.
2. Cisco SFS M7000E InfniBand Blade Switch for Dell M1000E [Электронный ресурс]. – Режим доступа: https://www.cisco.com/c/en/us/products/collateral/switches/sfs-m7000e-infniband-switch/ – C. 38–45. – Дата доступа: 11.01.2018
3. Сравнение кластера надежности и «обычного» сервера [Электронный ресурс]. – Режим доступа: http://www.team.ru/server/stbl_compare.shtml – Дата доступа: 24.08.2018
4. Козлов, Б.А. Краткий справочник по расчету надежности радиоэлектронной аппаратуры / Б. А. Козлов, И. А. Ушаков. – М.: Совет. радио, 1975. – 472 с.
5. Анищенко, В. В. Выбор стратегии восстановления работоспособности кластерной вычислительной системы / В. В. Анищенко, Л.И. Кульбак, Т.С. Мартинович // Информатика. – 2007. – № 1 (13). – С. 114–122.