Aleks
VIP
- Регистрация
- Июл 2, 2020
- Сообщения
- 83,666
SRE-Инженер
SRE-Инженер
Авторы: Иван Круглов, Павел Селиванов, Артём Артемьев
Курс скачан из открытых интернет-источников. Авторские права на продукты принадлежат только их владельцам. Основная цель сайта — это предоставление пользователям бесплатного материала для самостоятельного обучения. Если вы заметили нарушение своих авторских прав, то вы можете связаться с нами для удаления вашего продукта с нашего сайта.С Уважением,
Администрация проекта.
ОПИСАНИЕ:
Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов.
Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
НА ИНТЕНСИВЕ ВЫ БУДЕТЕ:
- Строить
- Ломать
нагрузкой.
- Чинить
- Изучать
ПРАКТИКА ИНТЕНСИВА:
- Теория и практика применения SLI/SLO/error budget
— когда «право на ошибку» исчерпано.
- Практика проведения разбора полетов (post-mortem)
— разбор инцидента без поиска виноватых (blameless-практики);
— выявление паттернов аварийных сценариев.
- Практика эффективной ликвидации IT-инцидентов
— взаимодействие между участниками инцидента;
— подход к коммуникации с пользователями, руководством, маркетингом и коллегами.
- Практика построения надежных систем:
— выбор надежной архитектуры и коммуникаций;
— graceful degradation, failure-injection, capacity planning;
— как справляться с перегрузками и предотвращать cascading failures.
ТРЕБОВАНИЯ К УЧАСТНИКАМ:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.
- – SSH-клиент,
- – наличие Docker у себя локально,
- – текстовый редактор/IDE.
Тема №1: Основные принципы и методы SRE
- Что нужно чтобы стать SRE?
- DevOps vs SRE
- Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
- SLI, SLO и SLA
- Error budget и его роль в SRE
- Архитектура и функционал приложения
- Non-Abstract Large System Design
- Operability / Design for failure
- gRPC или REST
- Версионирование и обратная совместимость
- Лучшие практики от SRE
- Чек-лист приема проекта
- Логирование, метрики, трейсинг
- Забираем CI/CD в свои руки
- Обратное проектирование — как работает система?
- Согласовываем SLI и SLO
- Практика capacity planning
- Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
- Запускаем Prometheus, Grafana, Elastic
- Monitoring vs. Observability
- Настраиваем мониторинг и алертинг с Prometheus
- Практический мониторинг SLI и SLO
- Symptoms vs. Causes
- Black-Box vs. White-Box Monitoring
- Распределенный мониторинг доступности приложений и серверов
- 4 золотых сигнала (обнаружение аномалий)
- Работа под давлением
- Failure-injection
- Chaos Monkey
- Алгоритм управления стрессом
- Взаимодействие между участниками инцидента
- Постмортем
- Knowledge sharing
- Формирование культуры
- Контроль неисправностей
- Проведение blameless разбора полетов
- Балансировка нагрузки
- Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
- DDoS (создаем нагрузку) + Cascading Failures
- Разбор полетов
- Практика On-
- Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
- Протоколы управления инцидентами
- Журналирование
- Отладка
- Практика анализа и отладки на нашем приложении
- Нагрузочное тестирование
- Тестирование конфигураций
- Тестирование производительности
- Canary release
Скачать: пароль к архиву boominfo.org
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.