Готова ли ваша игровая онлайн-платформа к Chaos Monkey?

Chaos Monkey готова испытать вашу игровую онлайн-платформу на пределе возможностей. Вопрос в том, "Сможете ли вы справиться с хаосом?" 

Информация от Дэвида Сачса, Генерального директора Tomobox и эксперта по искусственному интеллекту и его приложениям в ответственных играх и AML в iGaming. Он работал с ведущими операторами, владельцами платформ и регулирующими органами над внедрением мер безопасности, которые защищают игроков и продвигают безопасные ставки. 

Chaos monkey1Попытайтесь представить себе стаю обезьян, бегающих по вашему центру обработки данных, тянущих за кабели, ломающих маршрутизаторы и сеющих хаос в ваших приложениях и инфраструктуре. В наши дни ожесточенной конкуренции между операторами онлайн-игр еще более важным является опыт игроков. Непрерывность операций - это «Uber-Alles», а недопущение оттока клиентов из-за перебоев в обслуживании - это мантра организации. 

Это именно то, что разработала команда инженеров Netflix, когда они продумали отказоустойчивость IT-инфраструктуры как аппаратного, так и программного обеспечения. Chaos Monkey  - это инструмент, изобретенный Netflix в 2011 году для проверки chaosmonkey устойчивости своей IT-инфраструктуры. Он работает путем намеренного отключения компьютеров и служб в вашей производственной сети, чтобы проверить, как оставшиеся системы реагируют на сбой. Chaos Monkey теперь является частью более крупного набора инструментов под названием Simian Army, предназначенного для моделирования и тестирования реакции на различные системные сбои и крайние случаи. Это также часть нового инженерного режима, получившего название SRE - Site Reliability Engineering.

Site Reliability Engineer (SRE) будет тратить до 50% своего времени на выполнение «операций», таких как разрешение инцидентов, вызов по по требованию и ручное вмешательство. Поскольку ожидается, что программная система, которую курирует SRE, будет в высокой степени автоматической и самовосстанавливающейся, SRE должны тратить оставшиеся 50% своего времени на задачи разработки, такие как новые функции, масштабирование или автоматизация, чтобы убедиться, что «Chaos Monkey» находится под контролем.

Почему это важно для игрового опыта?

Непрерывность обслуживания в эпоху облака является обязательной и труднодостижимой. Существует бесконечно малое количество событий, которые могут пойти не так. И они ошибаются. Множество поставщиков обслуживают игровую платформу любого онлайн-оператора, от CRM до мобильных игр и платежных серверов, и это лишь некоторые из них. Любой сбой в обслуживании затрагивает тысячи игроков, которые могут потерять практически «деньги за столом».

SRE и управление инцидентами сегодня в моде. Технический директор Amazon Вернер Фогельс четко WernerVogelsописывает типичное крупное событие, вызывающее отключение: «Вы видите симптомы, но не обязательно видите их первопричину ... вы немедленно увольняете команду, задача которой - фактически общаться с клиенты ... чтобы все были в курсе того, что происходит ".

Между тем, продолжает он, «внутренние группы, конечно, немедленно начинают действовать и пытаться выяснить, в чем заключается основная причина этого, и можем ли мы исправить или восстановить это, или какие другие действия мы можем начать предпринимать». Когда происходит сбой, в основе диспетчеров инцидентов и SRE лежит оркестровка события.

Будущее оркестровки инцидентов

Управление серьезным инцидентом превратилось из малоизвестного искусства в измеримую науку. Управление инцидентом также связано с информированием клиентов, таких как аффилиаты или партнеры, на протяжении всего мероприятия. В день немедленного удовлетворения клиенты не ждут, что вы скажете им: «Подождите, держитесь», они требуют быть в курсе. Тем временем менеджеры по инцидентам изо всех сил пытаются решить проблемы и убедиться, что их действия регулируются прозрачностью, а все заинтересованные стороны проинформированы. Иногда это означает, что на один инцидент приходится сотни человек.

Фогельс заявляет об этом очень четко: «Я думаю, мы можем винить себя в том, что не превратили это в своего рода процедуру или что-то автоматизированное, где мы могли бы полностью контролировать то, какое число могло быть».

Это ключевой момент для Фогельса: по мере вашего роста и развития введение слишком большого количества моментов, требующих вмешательства человека, приводит к возможным ошибкам. По возможности автоматизируйте.

Автоматизация процедур эскалации, которые срабатывают по мере возникновения инцидентов, поможет вам справиться с событием и сократить время до разрешения. Различные поставщики добавляют эти возможности в свою инфраструктуру мониторинга. Унаследованные рабочие процессы, такие как ServiceNow, и компании, занимающиеся мониторингом инфраструктуры, такие как PagerDuty, добавляют дополнительные уровни управления инцидентами в свой пакет услуг посредством различных интеграций со сторонним программным обеспечением. Это по-прежнему заставляет инженера SRE бороться с множеством платформ для продажи билетов и обмена сообщениями на протяжении всего инцидента.

Ведущие выскочки, такие как Exigence пишут книгу заново и переделывают автоматизацию подхода к инцидентам, используя единую стеклянную панель. Единый координационный центр, позволяющий командам SRE эффективно сосредоточиться на разрешении и патологоанатомическом исследовании, вместо того, чтобы тратить бесконечные усилия на саморазвитие и интеграцию, - это будущее управления инцидентами.

Будущее управления бесконечными точками отказа программного и аппаратного обеспечения основано на упреждающей интеграции надежности сайта между NOC и проектированием. Это также требует высокого уровня автоматизации событий и готовности к возникновению инцидентов.

5й выпуск журнала Block:

The Block - это издание, выходящее два раза в год, освещающее передовые секторы ИИ, блокчейна, криптографии и новейших технологий, тираж которого составляет 5000 экземпляров, разосланных ведущим брендам по всей мировой индустрии. Ознакомьтесь с нашим последним выпуском the Block ниже.

Related Posts