Источник: IBusiness от 27.12.2013.
Отказ серверов Google в августе 2013 года всего на 5 минут стоил компании около $500 тыс. По оценке компании GoSquared, занимающейся мониторингом трафика в сети, эти краткосрочные временные технические проблемы в Google привели к уменьшению мирового интернет-трафика на 40%. По оценкам издания businesscloudnews.com, опубликованным в декабре 2013 года, $69 трлн будет потеряно всего за один час, если все Центры обработки данных (ЦОД) в мире перестанут работать одновременно. Это больше, чем годовой доход таких стран, как Кения ($37 трлн) или Латвия ($28 трлн). Облачные сервисы становятся все более популярными, и значит, все к более серьезным последствиям приводят перебои в предоставлении этих сервисов.
Цена ошибки
По оценкам поставщика систем электропитания Emerson Network Power, в 2012 году в мире было более 500 тысяч ЦОД. При отказе ЦОД всего на один час компании теряли в среднем около $138 тысяч. Эта цифра выросла на 38% в 2012 году по сравнению с 2010 годом. 59% компаний из списка Fortune 500 в неделю простаивают больше полутора часов, что приводит к их убыткам около $46 млн в год, а суммарно они теряют прочти на три порядка больше - около $26,5 млрд в год, сообщает Emerson Network Power. Представьте себе, что будет, если выйдет из строя самый большой ЦОД в мире - Switch SuperNAP в Лас-Вегасе площадью 220 тысяч квадратных метров, который содержит серверы 500 крупнейших компаний мира, таких как Google, eBay, FOX, Logitech, Verizon и др. Клиенты знают ответ на этот вопрос. 87% компаний считают, что отказ ЦОД и последующая необходимость восстанавливать данные серьезно повредит их бизнесу, причем 23% считают, что это станет настоящей катастрофой (были возможны несколько вариантов ответа одновременно). При этом 56% компаний в Северной Америке и 30% компаний в Европе не имеют продуманной стратегии восстановления данных после отказа ЦОД, известно из исследования Emerson Network Power.
Почему всё ломается
При нынешних масштабах деятельности индустрии полностью избежать отказов невозможно. По оценке экспертов компании Cisco глобальный годовой IP-трафик в 2015 году достигнет 1 зетабайта (1 млн петабайт), а в 2017 году - 1,4 зетабайта. А трафик между ЦОДами в 2016 году достигнет 554 экзабайт (тысяч петабайт) по сравнению с нынешними 146 экзабайт в месяц (кстати, эксперты Cisco разделяет этот трафик на три класса: 76% его остается в ЦОД, 17% передается по интернету или IP, 7% передаются между ЦОДами).
Чтобы понять, как улучшить надежность систем, нужно знать основные причины, по которым они выходят из строя. В подавляющем большинстве случаев ЦОДы <ломаются> из-за действий людей и животных. В 2011 году обычные белки были ответственны за 17% выхода из строя кабелей питания. Несколько лет назад из-за белки вышла из строя половина ЦОД компании Yahoo в Санта Кларе. Опаснее белок - только люди: 73% отказов ЦОД вызваны человеческими ошибками, недостаточной квалификацией обслуживающего персонала (эти данные содержатся в декабрьской инфографике издания businesscloudnews.com. Например, французская платежная система Chorus вышла из строя на 4 дня в июне 2013 года, когда сотрудник из технического персонала случайно включил систему пожаротушения. А Google в 2010 году сообщала о том, что ее воздушный кабель к ЦОДу в штате Орегон неоднократно перебивался охотниками - в результате пришлось его закопать.
Гораздо реже причины носят <естественный> характер. Обычно это сбои в системе электропитания. По этой причине у компании Salesforce.com в июле 2012 года была остановка в предоставлении услуг на 9 часов, хотя питание было восстановлено через минуту. Из-за ошибки в обслуживании системы бесперебойного питания ЦОД компании Hosting.com более 1100 пользователей остались необслуженными летом 2012 года. Совсем редки природные явления: в ЦОД Amazon в Северной Вирджинии (США) из-за необычно мощного урагана в июне прошлого года было прекращено энергопитание, в результате чего предоставление услуг прекратилось.
Как обеспечить устойчивость к отказам
Все крупные ЦОДы в мире строятся таким образом, чтобы не выходить из строя. Основной показатель работы ЦОД - отказоустойчивость; также важна стоимость эксплуатации, показатели энергопотребления и регулирования температурного режима. Например, стандарт TIA-942 предполагает четыре уровня надёжности дата-центров:
Tier 1 (N) - отказы оборудования или проведение ремонтных работ приводят к остановке работы всего дата-центра; в дата-центре отсутствуют фальшполы, резервные источники электроснабжения и источники бесперебойного питания; инженерная инфраструктура не зарезервирована;
Tier 2 (N+1) - имеется небольшой уровень резервирования; в дата-центре имеются фальшполы и резервные источники электроснабжения, однако проведение ремонтных работ также вызывает остановку работы дата-центра;
Tier 3 (2N) - имеется возможность проведения ремонтных работ (включая замену компонентов системы, добавление и удаление вышедшего из строя оборудования) без остановки работы дата-центра; инженерные системы однократно зарезервированы, имеется несколько каналов распределения электропитания и охлаждения, однако постоянно активен только один из них;
Tier 4 (2(N+1)) - имеется возможность проведения любых работ без остановки работы дата-центра; инженерные системы двукратно зарезервированы, то есть продублированы как основная, так и дополнительная системы (например, бесперебойное питание представлено двумя ИБП, работающими по схеме N+1).
В России уже работает несколько ЦОДов, сертифицированных по категории Tier III. В 2012 году Uptime Institute сертифицировал на соответствие уровню отказоустойчивости TIER III ЦОД Сбербанка России <Южный порт>, а весной 2013 года - московский дата-центр <Компрессор>.