HPE InfoSight. Информационный документ, посвященный ... ·...

12
Информационный документ HPE InfoSight Технологии искусственного интеллекта для гибридных облаков

Transcript of HPE InfoSight. Информационный документ, посвященный ... ·...

Page 1: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ

HPE InfoSightТехнологии искусственного интеллекта для гибридных облаков

Page 2: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ

Содержание

3 Введение

4 Экономическая целесообразность автономности

4 Искусственный интеллект обладает безграничными возможностями контроля

6 HPE InfoSight. Технологии ИИ для гибридного облака

8 Проектирование архитектуры системы выдачи рекомендаций

12 Предпосылки для внедрения автономной инфраструктуры

Page 3: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

ВведениеУправление инфраструктурой всегда было связано с разочарованием, множеством проблем и напрасной потерей времени. Поэтому ИТ-специалистам приходилось тратить дни и ночи, а также работать по выходным, чтобы устранять проблемы, подрывающие функционирование их приложений и бизнеса, и настраивать инфраструктуру вручную. А проблемы увеличивались с ростом числа приложений и зависимости от инфраструктуры.

К счастью, есть лучший путь. HPE InfoSight — это система искусственного интеллекта (ИИ), которая прогнозирует проблемы и предотвращает их появление во всей инфраструктуре, обеспечивает оптимальную производительность и эффективное использование ресурсов.

В этом документе мы рассмотрим, как решение HPE InfoSight и его система выдачи рекомендаций открывает путь к созданию автономной инфраструктуры, чтобы ИТ-специалисты могли направить усилия на повышение эффективности работы своей компании.

Информационный документ Стр. 3

Page 4: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 4

Экономическая целесообразность автономностиЛюбой руководитель предприятия знает о цифровой трансформации. Тем не менее, в основе трансформации лежит потребность в инфраструктуре, способной обеспечить непрерывную и надежную передачу данных в свои приложения. Предприятия просто не могут допустить возникновения какого-либо рода сбоев, простоев или использования неавтоматизированных ресурсов.

Компания HPE стояла у истоков этой новой парадигмы обработки данных, а десять лет назад приступила к разработке систем с датчиками для всего инфраструктурного комплекса. Были собраны триллионы точек данных. Однако сам по себе сбор данных не исключает необходимость выполнения ручных операций. Сложность инфраструктуры неизбежно влияет на предприятия и людей, которые ее администрируют.

Как бы ни стремился ИТ-отдел обеспечить развитие предприятия, инфраструктура продолжает этому препятствовать. Как следствие — бесконечный цикл ремонтов и настройки после поломок.

Традиционного мониторинга и поддержки уже недостаточноИТ-специалисты всегда полагались на средства мониторинга при диагностике и устранении неисправностей в информационной среде. К сожалению, за этим стоят десятки часов, потраченных сотрудниками на изучение файлов журнала и интерпретацию графиков в попытках понять причину сбоя и определить способы его устранения.

Если диагностика и устранение неисправностей становятся чрезмерно сложными, ИТ-отдел обращается за поддержкой к поставщикам. В ИТ-отрасли под поддержкой подразумевается длительная и многоэтапная передача разрешения проблемы на более высокий уровень иерархии.

Поскольку инфраструктура приобретает все большее значение для нижнего звена в иерархии организации, такого подхода будет недостаточно. В современных условиях уже неприемлемо обнаруживать сбой в работе системы после его возникновения. Организациям нужно решение, способное преобразовать способ управления и поддержки инфраструктуры, — решение, которое сможет предсказывать проблемы до их возникновения.

Заниматься обслуживанием инфраструктуры очень утомительноПостоянное обеспечение оптимальной производительности для каждого приложения сопряжено с трудоемким ручным вмешательством. В условиях постоянно меняющихся рабочих нагрузок точная настройка инфраструктуры потребует привлечения специализированного персонала и его продолжительной работы методом проб и ошибок. Избыточное выделение ресурсов — самый легкий путь, но затраты с таким подходом значительно превысят необходимые. Даже если бизнес-требования не меняются, то, скорее всего, упускаются возможности по улучшению производительности имеющихся ресурсов. Возможно, перенос приложения с AFA в гибридную среду или изменение размера могли бы улучшить результат. В то же время незнание может привести к тому, что уникальная возможность будет упущена.

В идеальном варианте ИТ-персонал получает рекомендации с подробными указаниями, что и когда нужно сделать, чтобы оптимизировать производительность и доступные ресурсы.

Искусственный интеллект обладает безграничными возможностями контроляЧеловек в состоянии видеть настоящее и немного помнить о прошлом. Так же устроены и программные средства, которые ИТ-администраторы используют для управления информационными средами. Но чтобы снять тяжкий груз управления инфраструктурой, необходимо уметь прогнозировать проблемы до их возникновения и обладать глубокими знаниями о рабочих нагрузках и ресурсах для определения дальнейших путей оптимизации среды. Традиционные средства не могут сделать этого по следующим причинам.

• Неспособность обучаться. Средства аналитики, которые просто сообщают о метриках локальной системы, представляют ограниченную ценность, поскольку поведение тысяч аналогичных сетей нельзя использовать для выявления и диагностики только зарождающихся проблем. Напротив, глобальный подход к сбору и анализу данных может объединять наблюдения от огромного числа рабочих нагрузок. Это позволит определять редкие события на одном объекте, чтобы заблаговременно не допустить их возникновения на другом, а также обнаруживать часто встречающиеся события на более раннем этапе и с большей точностью.

46 %

28 %

11 %

8 %7 %

Основные проблемы с инфраструктурой, которые приводят к снижению производительности приложений

1Связанные с системами хранения данных

2Проблемы, связанные с конфигурациями

3Проблемы, связанные с несовместимостью

4

Рекомендации по решению проблем, влияющих на производительность и не связанных с системами хранения данных

5Хост-системы, вычислительные ресурсы, виртуальные машины

Page 5: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 5

• Аналитика ограничена структурной разрозненностью. Проблемы с прерыванием работы приложений могут возникнуть по всему стеку инфраструктуры. Средства, предоставляющие информацию о состоянии только одного устройства, не дают увидеть полноты картины. Тем не менее, аналитика всего комплекса, сопоставляющая многочисленные уровни, включая приложения, вычислительные модули, виртуализацию, базы данных, сети и систему хранения данных, даст увидеть всю картину.

• Нехватка экспертных знаний. При моделировании с прогнозированием необходим опыт в экспертной области — понимание всех параметров эксплуатации, среды и телеметрии в пределах каждой системы стека инфраструктуры. Такие детальные сведения может предоставить только аналитика общего назначения. А объединение экспертных знаний с ИИ позволит алгоритмам машинного обучения определять причинную связь из хронологических событий для прогнозирования наиболее сложных и опасных проблем.

• Неспособность действовать. Оптимальный вариант — это автономные действия, выполняемые без вмешательства оператора. Для этого необходимо не только понимать, какие изменения необходимо предпринять, чтобы избежать проблемы или улучшить среду, но также и иметь возможность выполнять действия за администратора. Чтобы достичь такого уровня автоматизации, потребуется успешный опыт использования системы выдачи автоматических рекомендаций, который обеспечит необходимый уровень доверия и уверенности.

Инфраструктура с технологиями ИИ сможет преодолеть эти ограничения с помощью следующей структуры.

1. Наблюдение. Благодаря одновременному мониторингу всех систем на установленном оборудовании ИИ вырабатывает устойчивое понимание идеальной операционной среды для любых рабочих нагрузок и приложений. В дальнейшем аномальное поведение будет определяться с помощью распознавания выделенных шаблонов на ввод-вывод данных и конфигураций каждой среды.

2. Обучение. Глубокая системная телеметрия в сочетании с глобальной возможностью взаимодействия закладывает основу данных, использующих опыт каждой подключенной системы. Машинное обучение в облаке содействует интенсивному росту знаний и глобальному развитию искусственного интеллекта.

3. Прогнозирование. Любая новая обнаруженная проблема позволит ИИ научиться ее прогнозировать и с помощью алгоритмов сопоставления с шаблонами определять вероятную уязвимость любой другой системы из парка установленного оборудования. Кроме того, можно выполнить моделирование и настройку производительности приложения для новой инфраструктуры на основе хронологических конфигураций и шаблонов рабочих нагрузок.

4. Рекомендация. На основании прогнозной аналитики ИИ определяет соответствующую рекомендацию, необходимую для совершенствования среды. Рекомендациями выступают оперативные решения системы, которые разгружают ИТ-персонал и избавляют от необходимости управления инфраструктурой.

5. Действие. За счет взаимного доверия между инфраструктурой и ИИ рекомендации могут применяться автоматически от имени ИТ-администраторов. Если автоматическое применение недоступно, возможно предоставление конкретных рекомендаций с помощью автоматизации заявок на техническую поддержку.

Искусственный интеллект может следить за вашей инфраструктурой, постоянно обучаться на основании сведений от глобального парка установленного оборудования и применять свои знания для прогнозирования и предотвращения проблем, а также избавить вас от необходимости управления инфраструктурой. ИИ поможет повысить интеллектуальность и надежность инфраструктуры.

Рис. 1. ИИ для платформы инфраструктуры

Observe

Learn

Predict

AutomateДействие

Наблюдение

Изучение

ПрогнозированиеРекомендация

Page 6: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 6

HPE InfoSight. Технологии ИИ для гибридного облакаРешение HPE InfoSight появилось после осознания необходимости развития управления инфраструктурой и поддержки. Вместо того чтобы улаживать неожиданные проблемы и прибегать к услугам реактивной поддержки от поставщиков, ИИ должен сделать инфраструктуру достаточно умной, чтобы предвидеть неполадки до их возникновения и разрешать их без вмешательства человека. Только такая самовосстанавливающаяся модель позволит предприятиям наиболее эффективно использовать свои ресурсы для развития бизнеса.

HPE InfoSight — это платформа ИИ, в которой интеллектуальные функции используются для обеспечения автономности инфраструктуры. Созданная на основе уникального подхода к сбору данных и аналитике, платформа HPE InfoSight ежесекундно собирает и анализирует миллионы единиц информации от датчиков парка установленного оборудования по всему миру. Получаемые от датчиков данные предоставляют всесторонние показатели работы и состояния каждой системы, подсистемы и окружающей ИТ-инфраструктуры. ИИ обучается на основании этих данных, чтобы с помощью прогнозной аналитики и системы выдачи рекомендаций принести клиентам значительные выгоды.

Система прогнозной аналитики Предвидьте проблемы, чтобы исключить прерывания в работе и усовершенствовать ИТ-инфраструктуру.

HPE InfoSight предоставляет возможность использования прогнозной аналитики, которая охватывает весь жизненный цикл инфраструктуры — от планирования до расширения.

• Этап планирования. HPE InfoSight выбирает правильные размеры новой инфраструктуры с помощью прогнозирования необходимой производительности и мощностей, основываясь на анализе различных приложений из нашего парка установленного оборудования. Благодаря телеметрии из развернутых систем HPE InfoSight постоянно совершенствует свои модели машинного обучения для повышения точности определения размеров.

• После завершения развертывания массивов. Прогнозная аналитика преобразует продукт и процесс поддержки. HPE InfoSight постоянно ищет прогнозные индикаторы проблем и автоматически устраняет их еще до того, как заказчики осознают наличие неполадки. При обнаружении новой неполадки HPE InfoSight анализирует проблему, с тем чтобы впоследствии прогнозировать и предотвращать ее на других системах установленного парка оборудования.

• Завершение жизненного цикла. HPE InfoSight точно прогнозирует будущие потребности в ресурсах, производительности и пропускной способности на основании хронологии использования, авторегрессивной модели и имитационного моделирования по методу Монте-Карло.

• Обеспечение безопасности инфраструктуры. HPE InfoSight использует аналитику данных для прогнозирования и информирования об известных угрозах для безопасности и уязвимостях для получения более безопасной инфраструктуры.

Автоматизированная прогнозная система поддержки Управление на базе ИИ

Система прогнозной аналитики Глобальное обучение Система выдачи рекомендаций

Полный комплекс телеметрии

Облачная платформа

Уникальный опыт использования продукта

Системы хранения данныхСетьВычислительная система

Дифференцированное влияние

Рис. 2. Платформа HPE InfoSightatform

1 «Новый стандарт доступности систем», 2017

2 «Гарантия доступности систем хранения HPE», 2017

3, 4 «Оценка финансового влияния прогнозной аналитики HPE InfoSight», 2017

Глобальное обучение

ИИ и машинное обучение требуют огромных объемов данных, выходящих далеко за пределы ограниченных журналов и метрик традиционных аппаратных платформ. Платформы хранения HPE, использующие процессоры Intel® Xeon® и твердотельные диски, проектировались с внедренными диагностическими датчиками. Так как платформа HPE InfoSight собирала эти данные с 2010 года, охват ее телеметрии предоставляет архитектурное преимущество.

Преимущества решения HPE InfoSight:86 % проблем прогнозируются и решаются автоматически1

99,9999 % подтвержденной доступности2

На 79 % сокращаются эксплуатационные расходы на ИТ-системы хранения данных3

На 85 % быстрее решаются проблемы с системой хранения данных4

Page 7: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 7

Прогнозная аналитика не ограничивается системой хранения данныхВозможности прогнозирования HPE InfoSight не ограничиваются системой хранения данных.

Например, система HPE InfoSight предсказала и предотвратила для HPE Nimble Storage катастрофическую ситуацию, грозившую сбоем всех систем, выявив потенциальную проблему несовместимости с интерфейсной картой VIC. С помощью HPE InfoSight служба поддержки HPE Nimble Storage смогла определить, что механизм восстановления Fibre Channel мог дать сбой из-за двойного прерывания работы карты. HPE InfoSight использовала алгоритм сопоставления шаблонов по сигнатуре, чтобы определить 100 клиентов с подобной уязвимостью, и применила обходное решение, позволившее предотвратить проблему.

Как видно из примера с HPE Nimble Storage, HPE InfoSight способна автоматически прогнозировать и решать 86 % проблем. Благодаря этому расходы на ИТ-операции сокращаются на 79 %, на 85 % быстрее решаются проблемы с системой хранения данных, а подтвержденная доступность для всего парка установленного оборудования HPE Nimble Storage превышает 99,9999 %.

Система выдачи рекомендаций Создание легко управляемой инфраструктуры.

Чтобы обеспечить автономность инфраструктуры, платформа HPE InfoSight должна не только прогнозировать проблемы, но и динамично предоставлять интеллектуальные рекомендации и решения для проактивного улучшения и оптимизации каждой среды. Система выдачи рекомендаций должна учитывать особенности используемых приложений для выдачи правильной рекомендации в нужное время без влияния на другие приложения.

Благодаря системе выдачи рекомендаций HPE InfoSight расширяет свои возможности прогнозирования, с тем чтобы автоматически сообщать ИТ-персоналу о способах предотвращения проблемы, проактивно улучшать производительность и оптимизировать ресурсы. Рекомендации системы основываются на опыте, полученном из ее базы знаний.

Поскольку многие из более сложных обязанностей в управлении инфраструктурой связаны с производительностью системы, мы более подробно рассмотрим, что делает система выдачи рекомендаций для управления производительностью.

Рекомендации ИИ по повышению производительностиВ сегодняшних реалиях обеспечивать оптимальную производительность — это трудоемкое и дорогостоящее испытание. Во-первых, это реактивный подход, так как проблемы, влияющие на работу приложения, возникают неожиданно. Во-вторых, аналитические возможности других средств не позволяют понять, почему возникла проблема и как ее решить. В-третьих, это трудоемкий процесс с большим числом ручных настроек.

Благодаря усовершенствованному машинному обучению система выдачи рекомендаций HPE InfoSight идентифицирует возможности повышения производительности на основании шаблонов рабочей нагрузки на ввод-вывод данных, точно определяет переменные, которые имеют наибольшее влияние, и проактивно выдает правильную рекомендацию для повышения производительности. Благодаря системе выдачи рекомендаций больше не придется делать работу наугад. Кроме того, система оптимизирует производительность и ресурсы.

Рис. 3. Преимущества системы выдачи рекомендаций HPE InfoSight

ПримерИзменить сетевой

параметр для порта 3, чтобы избежать

проблемы отказоустойчивости

ПримерПереместить ВМ 3 на

хост 2, так как для хоста 1 превышен

лимит

ПримерПрименить

гарантированный уровень сервиса к тому 1,

чтобы улучшить производительность

тома 2

Предотвращение проблем

до их возникновенияулучшение

производительности

Оптимизацияимеющихся ресурсов

Проактивное

Запуск автономных автомобилей Системы выдачи рекомендаций используются во многих отраслях, чтобы автоматизировать и оптимизировать все: от корзин для онлайн-покупок до бизнес-операций. К одной из областей, где они оказывают решающее влияние, относится автомобиль с автономным управлением. С помощью рекомендаций автономный автомобиль узнает, как быстро он может ездить, когда тормозить и как избежать столкновений. Правильная рекомендация в нужное время — вот разница между успешным вождением и несчастным случаем.

Page 8: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 8

Проектирование архитектуры системы выдачи рекомендацийВ этом разделе мы подробнее рассмотрим систему выдачи рекомендаций. Мы расскажем о методологии проектирования, а также о самой архитектуре.

На рис. 4 представлена область решения проблем для потенциальных проблем инфраструктуры в виде столбиковой диаграммы с указанием типа проблем и их частоты. Проблемы, как правило, делятся на две категории — простые и распространенные, отмеченные серым цветом, и сложные и уникальные, отмеченные голубым. Вместе они формируют распределение Парето. Важно отметить, что кривая проблемы коррелируется с ее типом.

Простые и распространенные проблемы, такие как отказавшие диски, встречаются чаще, но составляют лишь небольшой процент проблем, с которыми необходимо справляться ИТ-администраторам. Из-за частоты возникновения такие проблемы проще прогнозировать и решать с помощью автоматизированного решения. Но реальность ИТ-среды такова, что проблемы могут быть совершенно разными. Такие проблемы относятся к сложным и уникальным, они возникают неожиданно и требуют применения большого числа человеческих и машинных ресурсов для их решения; и именно они наносят наиболее значительный вред.

Предприятиям необходимо прогнозировать и автоматически разрешать весь спектр проблем: от самых простых до самых сложных и разноплановых. Простые проблемы можно выявить, качественно изучив лишь какую-то часть данных с помощью жестко заданных правил, инициирующих события срабатывания и оповещения. В то время как другие поставщики могут заявлять, что они предоставляют рекомендации, большая часть их знаний обычно ограничивается рассмотрением проблем, относящихся к простой и распространенной части распределения.

Для сложных и уникальных задач число переменных и уровень количественной точности, необходимые для определения диагностики, возрастают почти экспоненциально. По мере роста сложности проблем правила жесткого задания, включающие многочисленные количественные переменные, становятся ненадежными и неэффективными. Даже самые талантливые специалисты прилагают значительные усилия, чтобы решать задачи, выходящие за рамки простого порогового поведения для количественных проблем (например, эта проблема должна проявляться, когда значение датчика X превышает порог Y). И зачастую даже эти решения исходят из жизненного опыта, а не из строгого анализа.

Система выдачи рекомендаций HPE InfoSight выходит за рамки простых и распространенных проблем. Ее можно использовать для выявления и предотвращения сложных и уникальных проблем. Благодаря ИИ и машинному обучению мы можем справиться с «длинным хвостом» диаграммы и дать рекомендации, которые позволят избежать дестабилизации бизнеса.

Методология проектирования ИИ по выдаче рекомендаций для производительностиЧтобы создать надежную систему выдачи рекомендаций по производительности, необходимо ответить на ключевые вопросы.

Простота СложностьТипы проблем

Периодичность Задача

Уникальные

Общие Высокий

Низкий

Рис. 4. Проблемы дискового пространства, согласованные с учетом индекса критичности

Page 9: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 9

Вопрос 1. Служит ли метрика производительности действительно точным индикатором неоптимизированной системы или потенциальной проблемы?

Датчики собирают измерения показателей своей среды в режиме реального времени с целью обнаружения событий или изменений. Как правило, ИТ-администраторы полагаются на значения этих датчиков (включая задержку чтения и записи, работоспособность и конфигурацию сервера, количество операций ввода-вывода, пропускную способность и другие), чтобы определить, является ли поведение системы проблематичным. Но такой подход неполноценен, так как сами по себе датчики не обладают достаточной полнотой информации, чтобы определить, действительно ли их значения информируют о влиянии на приложение и работу конечного пользователя.

Различные рабочие задачи и приложения обладают разными характеристиками производительности и возможностями реагирования на работу конечного пользователя. Например, операции с большими блоками данных, такие как задания резервного копирования, выполняются более медленно, но они менее чувствительны ко времени реакции по сравнению с рабочей нагрузкой транзакций. Наивная уверенность в том, что более высокое время задержки означает наличие проблемы, приводит к ошибочным срабатываниям и потере времени в погоне за ложными событиями — фундаментальной проблеме в управлении событиями.

Подход к проектированиюОпределение значимости влияния задержки зависит от чувствительности конкретного приложения. Используя в HPE InfoSight глобальную системную телеметрию, мы разработали модели типовой производительности с машинным обучением, чтобы более точно определять действительно важные для пользователей события. Мы проверили эти модели с помощью практических данных клиентов, отражающих потенциальное влияние (или оценку критичности задержки), которое может отрицательно сказаться на производительности.

РезультатКак показано на рис. 5, HPE InfoSight учитывает истинное влияние задержки и предоставляет оценку критичности за конкретный интервал времени с оранжевым цветовым кодом и соответствующим цифровым значением (от 1 до 10). Чем темнее оттенок оранжевого, тем вероятнее влияние на задержку.

Данное представление позволяет отсеять незначительные происшествия, чтобы ИТ-администраторы могли сосредоточить внимание на действительно важных событиях. Конечная цель — устранение ложных срабатываний и способность распознавать возможности для улучшения производительности.

30 января 4 февраля 7 февраля 11 февраля 15 февраля 19 февраля 22 февраля 26 февраля 1 марта 4 марта 7 марта 10 марта 14 марта

Потенциальное влияние: Высокое (10/10) Операций ввода-вывода в секунду: 2954,7 Задержка: 5,3 мс 08.03.2018 22:00 PST

Заде

ржка

при

вы

полн

ении

опе

раци

й вв

ода-

выво

да

Высокое потенциальное влияние

Низкая задержка

Низкое потенциальное влияние

Высокая задержка

Рис. 5. Хронология операций ввода-вывода с потенциальным воздействием, показанным оранжевым цветом, и количественной оценкой критичности задержки

Датчики не обладают достаточной полнотой информацииПроводя аналогию с биометрическим обследованием, нет никакого определенного способа узнать без дополнительных сведений и показателей состояния человеческого организма, должно ли систолическое артериальное давление в 133 мм рт. ст. вызывать большее беспокойство, чем давление в 121 мм рт. ст. По этой причине диагноз и рекомендации для значений давления от 120 до 139 мм рт.ст. одинаковы и основаны скорее на предположениях, чем на научных выводах. Соответственно, неправильно предполагать, что средняя задержка чтения в 10 мс оказывает более заметное влияние на производительность, чем в 5 мс, поскольку эта метрика сама по себе не содержит всю необходимую информацию.

Page 10: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 10

Вопрос 2. Учитывая рабочие задачи в системе, какие факторы могут влиять на производительность приложения и в какой степени?

Теперь, когда мы знаем, где и когда измерения датчиков указывают на неоптимизированную систему, можно перейти к следующему шагу — определить причину происходящего.

Как правило, ИТ-администраторам приходится решать проблемы производительности методом проб и ошибок, надеясь, что сработает хоть что-то и проблему удастся устранить. Но такой перебор доступных вариантов занимает много времени и часто не решает проблему полностью, если вообще решает.

Подход к проектированию Чтобы гарантированно придать нашей системе способность распознавать неполадки в пространстве задач, мы объединим анализ из моделей, описанных в вопросе 1, с двумя типами моделей машинного обучения: экспертной подготовкой и глобальной подготовкой. Модели экспертной подготовки проходят обучение и проверку на конкретных примерах редких событий, которые были отмечены нашими специалистами службы поддержки. Модели глобальной подготовки проходят обучение и проверку на телеметрии нашего парка установленного оборудования, чтобы распознавать необычные проблемы путем поиска ожидаемых корреляций с задержкой или событий нестандартного поведения системы.

Такой гибридный подход гарантирует, что HPE InfoSight сможет справиться с «длинным хвостом» сложных и уникальных проблем.

Модели экспертной подготовкиНаши модели экспертной подготовки — это классификаторы, которые используют отмеченные человеком экземпляры проблем, наблюдаемых в этой области. С помощью службы поддержки наши специалисты по обработке и анализу данных обучают классификаторы с высокой степенью точности распознавать новые экземпляры этих событий в области без вмешательства оператора. Пополнение телеметрии метками оператора гарантирует, что система выдаст правильный диагноз и рекомендации для нераспространенных событий.

Модели глобальной подготовкиМодели экспертной подготовки хорошо работают при определении однозначно истинных или ложных условий, но не подходят для проблем, возникающих вследствие нескольких причин и имеющих разную степень проявления. Если в конкретной системе обнаруживаются несколько отдельных источников задержек, важно применять последовательный способ при определения того, какой из источников наиболее повинен в найденной проблеме. В этом случае специалисту нереально подготовить примеры для обучения в достаточном количестве. Взамен мы обучаем модели на основании телеметрии нашего глобального парка установленного оборудования, чтобы количественно оценить, как различные источники задержек способствуют (часто нелинейно) возникновению наблюдаемой задержки. Благодаря такой модели мы можем определить, какие проблемы следует решать в первую очередь. Степень охвата и многообразие данных телеметрии позволяют создавать комплексные диагностические модели, которые невозможно обучить другим способом.

РезультатНаш способ гибридного машинного обучения постоянно повышает точность системы мониторинга неисправностей и широту ее охвата, сводя к минимуму неопознанные проблемы. Конечная цель — диагностика основных причин неисправностей для каждой системы в нашем парке установленного оборудования.

Глобальная системная телеметрия

Специалисты в отдельных

областях+

специалисты по обработке данных

Система выдачи рекомендаций

Среды заказчика

(автоматические)

Прогнозные модели Рекомендация

Матрица приоритизации

Глобальная подготовка

Экспертная подготовка

1 23

Рис. 6. Архитектура для системы выдачи рекомендаций

В чем преимущества машинного обучения?Машинное обучение идеально подходит для задач, требующих одновременного изучения нескольких количественных переменных и сигнатур, которые не имеют краткого качественного описания. Правила, созданные человеком, плохо подходят для решения этих проблем. Столь же невероятно предложить человеку составить рукописный код, который определяет, соответствует ли матрица пикселей конкретному лицу.

Многовариантный анализКлассификаторы экспертной подготовки полезны, например, для определения загруженности полосы пропускания SSD: нераспространенного события, при котором высокая степень пропускной способности операций ввода-вывода направляется на твердотельные накопители. Этот сценарий интересен, так как мы определили, что изучения любой отдельной метрики SSD (например, задержки, глубины очереди, операций ввода-вывода, Мбит/с, доли недавних активных сеансов использования в миллисекундах и т. д.) абсолютно недостаточно для точного определения того, служит ли SSD причиной проблем с производительностью. Напротив, следует рассматривать многочисленные выборки этих метрик параллельно. Изучение только отдельной метрики приведет к приближенному анализу, который либо создаст большое число ложных срабатываний (низкая точность), либо не выявит значительную часть проблемных событий (низкая чувствительность). Чтобы создать модель, которая могла бы одновременно демонстрировать показатели высокой точности и чувствительности, следовало прибегнуть к многовариантной модели машинного обучения. Благодаря количественной сложности проблемы наш классификатор, построенный на машинном обучении, смог распознать эту неполадку гораздо эффективнее, чем любой предшествующий ему эвристический алгоритм, написанный человеком.

Page 11: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Информационный документ Стр. 11

Вопрос 3. Какая рекомендация по повышению производительности правильная?

По результатам рассмотрения вопросов 1 и 2 HPE InfoSight может определить, есть ли возможность улучшить среду клиента. Подход к вопросу 3 приведет к тому, что HPE InfoSight будет автоматически сообщать ИТ-администраторам о возможностях улучшения ситуации.

Подход к проектированию Самая простая и самая неэффективная рекомендация — это дать клиенту совет обновить оборудование, потому что мощностей текущих ресурсов уже не хватает, чтобы физически обеспечивать выполнение рабочих нагрузок. HPE InfoSight, напротив, предоставляет гораздо более развернутый набор рекомендаций, включая, помимо прочего, обновления программного обеспечения, изменения рабочей нагрузки, изменения конфигурации и обновления оборудования. Кроме того, учитываются ограничения, накладываемые гарантированным уровнем сервиса. HPE InfoSight знает об особенностях использования приложений, ресурсов и их параметрах (например, время и день недели пиковых нагрузок) для каждой системы. И использует это понимание, чтобы расставить приоритеты для рекомендаций.

К рекомендации прилагаются подробные сведения, информирующие о группе пользовательских нагрузок, которые вызывают перегрузку ресурсов (например, о томах, которые используют большую часть ресурсов хранилища ЦП, тогда как массивы ограничены по ЦП). Эти сведения имеют решающее значение, поскольку на их основе пользователь сможет выбирать между программным или аппаратным методом решения. Под программным методом подразумевается регулирование рабочей нагрузки путем принудительного снижения активности дисковых томов или применение других способов ослабления требований дисковых томов к ресурсам. Аппаратный метод решения включает добавление в систему дополнительного оборудования для расширения ее возможностей и устранения критической нехватки ресурсов.

РезультатДо HPE InfoSight ИТ-администраторам приходилось заниматься трудоемким процессом управления производительностью систем хранения данных. Процесс имел реактивный характер, уйма времени тратилась на толкование графиков, журналов и ручную настройку инфраструктуры.

Благодаря системе выдачи рекомендаций клиентам больше не нужно волноваться о производительности. HPE InfoSight сообщит ИТ-отделу, если появится возможность повысить производительность, и что для этого нужно будет сделать. Они смогут жестко управлять своими системами хранения данных, консолидировать несколько приложений и никогда не беспокоиться о замедлении работы приложений, вызванном инфраструктурой. Они будут уверены в оптимальной работе своей системы.

Таким образом, рекомендации, создаваемые HPE InfoSight, можно охарактеризовать следующим образом.

• Автоматические. В любое время доступны каждому клиенту по всему миру.

• Превентивные. Предвидят узкие места в системе до того, как они смогут повлиять на бизнес.

• Расширенные. Используют машинное обучение для прогнозирования «длинного хвоста» сложных и уникальных проблем.

• Процедурные. Помимо обновления аппаратного обеспечения предлагают конкретные операционные изменения.

Page 12: HPE InfoSight. Информационный документ, посвященный ... · 2020-06-02 · Как бы ни стремился ИТ-отдел обеспечить

Предпосылки для внедрения автономной инфраструктурыСовременным предприятиям необходимо обеспечивать непрерывный доступ к данным всех своих развивающихся приложений. В то же время это задача усложняется по мере роста инфраструктуры и требований, предъявляемых ограниченными ресурсами. ИТ-директора больше не могут позволить, чтобы инфраструктура сдерживала развитие бизнеса.

Наша концепция развития — это автономная инфраструктура, которая больше не нуждается в постоянном внимании, ручной настройке, реактивном поиске и устранении неисправностей. Это инфраструктура, в которой процессы управления, восстановления и оптимизации выполняются автоматически. Может показаться, что такая перспектива далека от реальности, но предприятия с инфраструктурой при поддержке HPE InfoSight отмечают, что данная концепция рано или поздно реализуется. Ключ к решению — технологии ИИ.

Платформа HPE InfoSight, использующая наиболее опытный ИИ в отрасли, коренным образом изменила порядок управления и поддержки инфраструктуры. Благодаря облачному машинному обучению ИИ прогнозирует и предотвращает проблемы, обеспечивая при этом оптимальную производительность и доступность поддерживаемой инфраструктуры. Имея уже почти десятилетний опыт обучения и развития, решение HPE InfoSight продолжает становиться все более сложным и профессиональным.

Система выдачи рекомендаций в HPE InfoSight приближает нас к автономной инфраструктуре благодаря своим возможностям прогнозирования. Вместо того чтобы реагировать на проблемы или пытаться выяснить, как лучше всего управлять ресурсами, HPE InfoSight видит перспективу и советует клиентам, что делать, чтобы избежать проблем и улучшить среду. Система выдачи рекомендаций уже сегодня принимает интеллектуальные решения, которые в будущем смогут применяться автоматически от имени наших клиентов.

Для получения подробных сведений посетите веб-сайтhpe.com/info/infosight

© Hewlett Packard Enterprise Development LP., 2018–2019. Информация в настоящем документе может быть изменена без предварительного уведомления. Гарантийные обязательства для продуктов и услуг Hewlett Packard Enterprise приведены только в условиях явной гарантии, прилагаемой к каждому продукту и услуге. Никакие содержащиеся здесь сведения не должны трактоваться как дополнительные гарантийные обязательства. Hewlett Packard Enterprise не несет ответственности за технические, редакторские и другие ошибки в данном документе.

Intel Xeon является товарным знаком корпорации Intel на территории США и других стран. Все остальные сторонние товарные знаки являются собственностью соответствующих владельцев.

a00044051RUE, октябрь 2019 г., ред. 3

Информационный документ

Поделиться

Подписаться