<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">vestift</journal-id><journal-title-group><journal-title xml:lang="ru">Известия Национальной академии наук Беларуси. Серия физико-технических наук</journal-title><trans-title-group xml:lang="en"><trans-title>Proceedings of the National Academy of Sciences of Belarus. Physical-technical series</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1561-8358</issn><issn pub-type="epub">2524-244X</issn><publisher><publisher-name>The Republican Unitary Enterprise Publishing House "Belaruskaya Navuka"</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.29235/1561-8358-2019-64-3-347-358</article-id><article-id custom-type="elpub" pub-id-type="custom">vestift-458</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>INFORMATION TECHNOLOGIES AND SYSTEMS</subject></subj-group></article-categories><title-group><article-title>Оценка надежности кластерной суперкомпьютерной конфигурации</article-title><trans-title-group xml:lang="en"><trans-title>Reliability assessment of cluster supercomputer configuration</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Кульбак</surname><given-names>Л. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Kulbak</surname><given-names>L. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Кульбак Леонид Игоревич – кандидат технических наук, доцент, ведущий научный сотрудник</p><p>ул. Сурганова, 6, 220012, Минск</p></bio><bio xml:lang="en"><p>Leonid I. Kulbak – Ph. D. (Engineering), Associate Professor, Leading Researcher</p><p>6, Surganov Str., 220012, Minsk</p></bio><email xlink:type="simple">lkulbak@yandex.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Чиж</surname><given-names>О. П.</given-names></name><name name-style="western" xml:lang="en"><surname>Tchij</surname><given-names>O. P.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Чиж Олег Петрович – кандидат физико-математических наук, заведующий лабораторией высокопроизводительных систем</p><p>ул. Сурганова, 6, 220012, Минск</p></bio><bio xml:lang="en"><p>Oleg P. Tchij – Ph. D. (Physics and Mathematics), Head of the Laboratory of High-Performance Systems</p><p>6, Surganov Str., 220012, Minsk</p></bio><email xlink:type="simple">otchij@newman.bas-net.by</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Парамонов</surname><given-names>Н. Н.</given-names></name><name name-style="western" xml:lang="en"><surname>Paramonov</surname><given-names>N. N.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Парамонов Николай Николаевич – кандидат технических наук, доцент, ведущий научный сотрудник</p><p>ул. Сурганова, 6, 220012, Минск</p></bio><bio xml:lang="en"><p>Nikolaj N. Paramonov – Ph. D. (Engineering), Associate Professor, Leading Researcher</p><p>6, Surganov Str., 220012, Minsk</p></bio><email xlink:type="simple">nick@newman.bas-net.by</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Рымарчук</surname><given-names>А. Г.</given-names></name><name name-style="western" xml:lang="en"><surname>Rymarchuk</surname><given-names>A. G.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Рымарчук Александр Григорьевич – главный конструктор проекта</p><p>ул. Сурганова, 6, 220012, Минск</p></bio><bio xml:lang="en"><p>Aleksandr G. Rymarchuk – Chief Designer of the project</p><p>6, Surganov Str., 220012, Minsk</p></bio><email xlink:type="simple">rymarchuk@newman.bas-net.by</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Мартинович</surname><given-names>Т. С.</given-names></name><name name-style="western" xml:lang="en"><surname>Martinovich</surname><given-names>T. S.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Мартинович Татьяна Сергеевна – научный сотрудник</p><p>ул. Сурганова, 6, 220012, Минск</p></bio><bio xml:lang="en"><p>Tatyana S. Martinovich – Researcher</p><p>6, Surganov Str., 220012, Minsk</p></bio><email xlink:type="simple">martintan@newman.bas-net.by</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Объединенный институт проблем информатики Национальной академии наук Беларуси</institution></aff><aff xml:lang="en"><institution>United Institute of Informatics Problems of the National Academy of Sciences of Belarus</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2019</year></pub-date><pub-date pub-type="epub"><day>05</day><month>10</month><year>2019</year></pub-date><volume>64</volume><issue>3</issue><fpage>347</fpage><lpage>358</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Кульбак Л.И., Чиж О.П., Парамонов Н.Н., Рымарчук А.Г., Мартинович Т.С., 2019</copyright-statement><copyright-year>2019</copyright-year><copyright-holder xml:lang="ru">Кульбак Л.И., Чиж О.П., Парамонов Н.Н., Рымарчук А.Г., Мартинович Т.С.</copyright-holder><copyright-holder xml:lang="en">Kulbak L.I., Tchij O.P., Paramonov N.N., Rymarchuk A.G., Martinovich T.S.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://vestift.belnauka.by/jour/article/view/458">https://vestift.belnauka.by/jour/article/view/458</self-uri><abstract><p>Исследование показателей надежности проводилось на примере кластерной суперкомпьютерной конфигурации «СКИФ-ГЕО-ЦОД РБ» (далее – кластер), разработанной в рамках научно-технической программы Союзного государства «СКИФ-Недра» (2015–2018 гг.). Кластер представляет собой стационарную суперкомпьютерную конфигурацию, предназначенную для решения ресурсоемких прикладных задач в центрах обработки данных (ЦОД). Вычислительные платформы и другие модули кластера располагаются в одной 19′′ стойке типа APC Netshelter высотой 42U. Теоретическая пиковая производительность кластера – 100 Тфлопс. Приведены базовые архитектурные принципы, реализованные в кластере, состав и структурно-функциональная схема кластера. Предложено методическое обеспечение расчета надежности кластера, базирующееся на предыдущих исследованиях авторов. Обоснована структурная схема надежности (ССН) кластера, состоящая из двух частей – ядра кластера и совокупности вычислительных средств (узлов) (СВС). В ядро кластера и в СВС входят составные части (СЧ), отказы которых приводят к снижению производительности кластера, причем в ядро входят СЧ, отказы которых приводят к снижению производительности кластера до нуля. Обоснован выбор основных показателей надежности ядра кластера и СВС, приведены формулы расчета этих показателей. Проведен анализ последствий отказов комплектующих кластер СЧ. С учетом этого анализа определена ССН ядра кластера, позволяющая определить формулу расчета показателей надежности ядра кластера. Предложена математическая модель надежности (граф состояний) СВС кластера и формулы для вычисления средней наработки на отказ и на сбой СВС кластера. Определена надежность СЧ кластера, для которых отсутствуют достоверные сведения по их надежности, на основании ССН этих СЧ. Проведена оценка надежности кластера в целом, основанная на вычислении показателей по справочным данным о надежности компонентов и комплектующих элементов, а также по данным эксплуатации суперкомпьютеров семейства «СКИФ». С учетом этой оценки и полученных расчетных соотношений рассчитаны показатели надежности кластера для двух вариантов (при наличии и отсутствии резерва вычислительных узлов). Высокие значения показателей надежности кластера были достигнуты благодаря принятым в процессе его разработки архитектурным и структурным решениям, направленным на повышение его живучести. Полученный расчет показателей надежности разработанного кластера позволит определить наиболее эффективные стратегии его эксплуатации, а также подходы к проектированию и применению кластерных суперкомпьютерных конфигураций.</p></abstract><trans-abstract xml:lang="en"><p>The study of reliability indicators was carried out on the example of a cluster supercomputer configuration of “SKIF-GEO” (further cluster) worked out within the framework of the scientific and technical program “SKIF-Nedra” (2015–2018, Program of the Union State of Russia and Belarus). The cluster is a stationary supercomputer configuration designed to solve resource-intensive applications in data processing centers (DPC). Computing platforms and other cluster modules are located in the same 19′′ rack height of 42U. Theoretical peak performance of cluster – 100 Tflop/s. The basic architectural principles implemented in the cluster, the composition and structural-functional scheme of the cluster are given. A methodological support for calculating the reliability of the cluster, based on previous studies by the authors, is proposed. Taking into account these studies, the structural scheme of reliability (SSR) of the cluster, consisting of two parts – the cluster core and the combination of computing facilities (nodes) (CCF), is substantiated. The component parts (CP) include components of the cluster, the failure of which leads to a decrease in performance to zero. CCF includes CP of cluster, the failures of which lead to a decrease in cluster performance. The choice of the main indicators of the reliability of the cluster core and CCF is grounded and formulas for calculating these indicators are given. The analysis of the consequences of failures of cluster components is made. Taking into account the analysis, the SSR of the cluster core is determined, which allows to derive a formula for calculating the cluster core reliability indicators. A mathematical model of reliability (state graph) of an CCF cluster is proposed, which allows one to derive formulas for calculating the mean time to failure and the mean time for a failure of the CCF of cluster. An assessment of the reliability of CP cluster, for which there is no reliable information on their reliability, is determined based on the SSR of these CP. An assessment of the reliability of the cluster as a whole, based on the calculation of reliability indicators based on reference data on the reliability of components and components, as well as on data from the operation of supercomputers of family “SKIF” has been carried out. Taking into account this estimation and the calculated ratios obtained, the cluster reliability indicators for two options were calculated (in the presence and absence of a reserve of computing nodes). High values of cluster reliability indicators were achieved due to the architectural and structural solutions adopted in the process of its development, aimed at increasing its survivability.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>кластер</kwd><kwd>суперкомпьютер</kwd><kwd>надежность</kwd><kwd>показатели надежности</kwd><kwd>расчет надежности</kwd><kwd>резервирование</kwd></kwd-group><kwd-group xml:lang="en"><kwd>cluster</kwd><kwd>supercomputer</kwd><kwd>reliability</kwd><kwd>reliability indicators</kwd><kwd>reliability calculation</kwd><kwd>reservation</kwd></kwd-group><funding-group><funding-statement xml:lang="ru">Работа выполнена в рамках научно-технической программы «Исследования и разработка высокопроизводительных информационно-вычислительных технологий для увеличения и эффективного использования ресурсного потенциала углеводородного сырья Союзного государства» («СКИФ-Недра») (проект 2.1.1.1).</funding-statement><funding-statement xml:lang="en">This work was carried out as part of the Scientific and Technical Program “Research and development of highperformance information and computing technologies to increase and efficiently use the resource potential of the hydrocarbon raw materials of the Union State” (“SKIFNedra”) (Project 2.1.1.1).</funding-statement></funding-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Анищенко, В.В. Модели надежности кластерных вычислительных систем / В. В. Анищенко, Л.И. Кульбак, Т. С. Мартинович // Вес. Нац. акад. навук Беларусi. Cер. фiз.-тэхн. навук. – 2008. – № 1. – С. 89–99.</mixed-citation><mixed-citation xml:lang="en">Anishchenko V. V., Kulbak L. I., Martinovich T.S. Reliability models of cluster computing systems. Vestsi Natsyyanal’nai akademii navuk Belarusi. Seryya fzika-technichnych navuk = Proceedings of the National Academy of Sciences of Belarus. Physical-technical series, 2008, no. 1, pp. 89–99 (in Russian).</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Cisco SFS M7000E InfniBand Blade Switch for Dell M1000E [Электронный ресурс]. – Режим доступа: https://www.cisco.com/c/en/us/products/collateral/switches/sfs-m7000e-infniband-switch/ – C. 38–45. – Дата доступа: 11.01.2018</mixed-citation><mixed-citation xml:lang="en">Cisco SFS M7000E InfniBand Blade Switch for Dell M1000E. Available at: https://www.cisco.com/c/en/us/products/collateral/switches/sfs-m7000e-infniband-switch (accessed 11 January 2018).</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Сравнение кластера надежности и «обычного» сервера [Электронный ресурс]. – Режим доступа: http://www.team.ru/server/stbl_compare.shtml – Дата доступа: 24.08.2018</mixed-citation><mixed-citation xml:lang="en">Comparing the reliability cluster and the normal server. Available at: http://www.team.ru/server/stbl_compare.shtml (accessed 24 August 2018).</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Козлов, Б.А. Краткий справочник по расчету надежности радиоэлектронной аппаратуры / Б. А. Козлов, И. А. Ушаков. – М.: Совет. радио, 1975. – 472 с.</mixed-citation><mixed-citation xml:lang="en">Kozlov B. A., Ushakov I.A. A Short Guide to Calculating the Reliability of Electronic Equipment. Moscow, Sovetskoe radio Publ., 1975. 472 p. (in Russian).</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Анищенко, В. В. Выбор стратегии восстановления работоспособности кластерной вычислительной системы / В. В. Анищенко, Л.И. Кульбак, Т.С. Мартинович // Информатика. – 2007. – № 1 (13). – С. 114–122.</mixed-citation><mixed-citation xml:lang="en">Anishchenko V. V., Kulbak L. I., Martinovich T.S. Strategy choice of working capacity restoration for cluster computer systems. Informatika = Informatics, 2007, no. 1 (13), pp. 114–122 (in Russian).</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
