LMOGC – Logging, Monitoring và Observability trên Google Cloud

LMOGC - Logging, Monitoring và Observability trên Google Cloud

Thời lượng

03 ngày

Khóa học Logging, Monitoring và Observability trên Google Cloud giúp học viên nắm được các kỹ thuật giám sát, khắc phục sự cố, và cải thiện hiệu suất hạ tầng cũng như ứng dụng trên Google Cloud. Được hướng dẫn theo các nguyên tắc của Site Reliability Engineering (SRE), thông qua kết hợp thuyết trình, demo, thực hành lab và các case study thực tế, học viên sẽ có trải nghiệm về:

giám sát toàn bộ stack,
quản lý log thời gian thực và phân tích,
debug code trong môi trường production,
truy vết các điểm nghẽn hiệu suất ứng dụng,
cũng như profiling CPU và bộ nhớ.

Mục tiêu khóa học

Sau khóa học, học viên sẽ có thể:
• Lập kế hoạch và triển khai hệ thống logging & monitoring theo kiến trúc tốt.
• Xác định các Service Level Indicator (SLI) và Service Level Objective (SLO).
• Tạo dashboard giám sát và thiết lập cảnh báo hiệu quả.
• Giám sát, khắc phục sự cố và cải thiện hạ tầng Google Cloud.
• Phân tích và xuất các audit logs của Google Cloud.
• Phát hiện lỗi trong code production, xác định các điểm nghẽn, cải thiện hiệu suất.
• Tối ưu chi phí giám sát.

Đối tượng tham gia

Khóa học này dành cho:
• Các Cloud architect, administrator, SysOps,
• Developer trên cloud, kỹ sư DevOps.

Điều kiện tham gia

Để đạt hiệu quả tốt nhất, học viên nên có:
• Đã hoàn thành Google Cloud Platform Fundamentals: Core Infrastructure hoặc kinh nghiệm tương đương.
• Kiến thức cơ bản về scripting hoặc coding.
• Thành thạo với command-line và môi trường Linux.

Chứng nhận

Sau khi hoàn tất khóa học, học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của Cecomtech.

Nội dung khóa học

Khóa học gồm thuyết trình, demo, và các lab thực hành.

Module 1: Giới thiệu các công cụ Monitoring của Google Cloud

Hiểu mục đích và khả năng của các thành phần hướng đến vận hành: Logging, Monitoring, Error Reporting, Service Monitoring.
• Hiểu mục đích và khả năng của các thành phần quản lý hiệu suất ứng dụng: Debugger, Trace, Profiler.

Module 2: Tránh gây tổn hại đến khách hàng

Xây dựng nền tảng giám sát dựa trên 4 golden signals: latency, traffic, errors, saturation.
• Đo lường mức độ đau đớn của khách hàng qua SLIs.
• Xác định các thước đo hiệu suất quan trọng.
• Tạo và sử dụng SLO, SLA.
• Đạt được sự hòa hợp giữa dev và ops thông qua error budgets.

Module 3: Chính sách cảnh báo (Alerting Policies)

Phát triển chiến lược cảnh báo.
• Xác định các chính sách alert.
• Thêm các kênh thông báo.
• Phân loại các loại alert và cách dùng phổ biến.
• Xây dựng alert dựa trên resource groups.
• Quản lý alert policy bằng code (programmatically).

Module 4: Giám sát các hệ thống quan trọng

Chọn kiến trúc monitoring project theo best practice.
• Phân biệt các vai trò Cloud IAM cho monitoring.
• Sử dụng dashboard mặc định hợp lý.
• Xây dựng dashboard tùy chỉnh hiển thị mức tiêu thụ tài nguyên & tải ứng dụng.
• Định nghĩa uptime checks để kiểm tra aliveness & latency.

Module 5: Cấu hình dịch vụ Google Cloud cho Observability

Tích hợp agent logging & monitoring vào VM Compute Engine và images.
• Bật và dùng Kubernetes Monitoring.
• Mở rộng Kubernetes monitoring với Prometheus.
• Expose custom metrics qua code, hoặc dùng OpenCensus.

Module 6: Logging nâng cao và phân tích

Xác định và chọn các cách tagging resource.
• Định nghĩa log sinks (lọc inclusion) và exclusion filters.
• Tạo metrics dựa trên logs.
• Định nghĩa custom metrics.
• Link lỗi ứng dụng tới Logging qua Error Reporting.
• Xuất logs sang BigQuery.

Module 7: Giám sát bảo mật mạng và audit logs

Thu thập và phân tích VPC Flow logs, Firewall rules logs.
• Bật và giám sát Packet Mirroring.
• Trình bày khả năng của Network Intelligence Center.
• Dùng Admin Activity audit logs để theo dõi thay đổi config hoặc metadata tài nguyên.
• Dùng Data Access audit logs để theo dõi truy cập hoặc thay đổi data do user cung cấp.
• Dùng System Event audit logs để theo dõi các thao tác quản trị GCP.

Module 8: Quản lý sự cố (Incident Management)

Xác định vai trò quản lý sự cố & các kênh liên lạc.
• Giảm tác động của sự cố.
• Troubleshoot nguyên nhân gốc.
• Xử lý sự cố.
• Ghi nhận sự cố qua quá trình post-mortem.

Module 9: Điều tra vấn đề hiệu suất ứng dụng

Debug code production để khắc phục lỗi.
• Trace độ trễ qua các lớp dịch vụ để loại bỏ bottleneck.
• Profile để xác định các hàm tiêu tốn tài nguyên nhất.

Module 10: Tối ưu chi phí monitoring

Phân tích chi phí sử dụng tài nguyên cho các thành phần monitoring trên Google Cloud.
• Áp dụng best practice để kiểm soát chi phí monitoring.