Full Stack Observability and SRE

Jun 8, 2022

SRE

Full Stack Observability 📈

Es de igual importancia desarrollar y poner a correr aplicaciones, como saber cual es el estado y que está pasando en las mismas. Para los que venimos del mundo de infra el monitoreo 🔍 que empieza desde el día cero, desde cosas básicas como hacer un Ping para validar que esté respondiendo hasta scripts que permitan ver una línea específica en un log.

Hoy en día no se concibe un monitoreo que no sea FullStack y que él mismo nos permite cruzar datos de aplicación, logs, métricas bajando al mayor nivel posible tanto así que a veces se genera una marea de datos!

Hay distintas tools 🔧 de Observabilidad muy buenas como Datadog, Dynatrace, Splunk, Sumologic , Soluciones Opensource como Prometheus, Grafana, Zabbix, Nagios, entre otras ! Muchas veces la propia elección de la herramienta ya es un desafío en sí, nos va a servir para todos los casos de usos? Vamos a tener una tool para APM y otra para Infra? ¿Qué pasa con los eventos de seguridad?

De las herramientas que tuve la oportunidad de probar, configurar y usar en ambientes productivos puedo decir que New Relic, Inc. es una de las más sólidas sobre todo en términos de Full Stack Observability hace simple algo que es realmente complejo. Por ello desde Pomelo elegimos New Relic como nuestra observability tool. Una de las cosas copadas fue la creación e incorporación de Pixie https://pixielabs.ai/ que le permitio a New Relic tener Open-Telemetry sobre los clusters de Kubernetes en tiempo real.

Dejo links a la New Relic University 📖 que cuenta con varios cursos gratuitos e incluso una certificación para realizar 🔥, https://lnkd.in/eMycVBf2.

Build. Fail. Learn. Repeat.

El gran foco del equipo SRE - Site Reliability Engineer es velar por la tener la máxima Resiliencia posible como lo dice el propio nombre. Para ello tradicionalmente se trata la resiliencia como si lo viéramos como una buena práctica, esto está perfecto pero no alcanza si buscamos tener una aspiración como un 99,999%📍 de disponibilidad de servicio. La única forma de alcanzar tal hazaña es provocando Caos para prever el Caos Real.

Chaos Engineering 🚫 es la disciplina que bajo un método científico inyecta fallas en los sistemas para simular cómo reaccionan los mismos. Pocas empresas tienen la capacidad de realmente simular Caos antes de salir incluso a producción.

Gremlin es una herramienta de Chaos Engineering as service, ¡hace extremadamente sencillo algo que no es para sencillo! Como si fuera poco generaron una certificación 📚‘Certified Chaos Engineering Professional’ totalmente gratis 👏👏👏 y con muy buen material disponible para aprender de esta disciplina.

Dejo Link 💻 https://lnkd.in/eAdsqdS5

#producción #engineering #sre #gremlin #chaosengineering #sre #observabilidad #monitoreo #newrelic #devops #enginner #pixie #kubernetes #opensource