Il mio ciclo di feedback sulla fatica da allerta: come sono riuscito a liberarmi

📖 10 min read•1,842 words•Updated Apr 4, 2026

Bene, ragazzi. Chris Wade qui, di nuovo su agntlog.com, e oggi ci stiamo addentrando a capofitto in qualcosa che mi tiene sveglio la notte… in un buon modo, per lo più. Stiamo parlando di allerta. Non si tratta di qualsiasi allerta, mind you. Analizzeremo quello che chiamo il “Ciclo di Feedback della Fatica da Allerta” e come effettivamente liberarsene. Perché, diciamocelo, se il tuo pager suona più della tua sveglia, stai facendo qualcosa di sbagliato.

È marzo 2026, e l’industria è inondato di nuovi strumenti, nuovi paradigmi, nuove cose. Ma c’è un problema che persiste come una macchia testarda sulla tua t-shirt preferita: troppe maledette allerte. L’ho visto, l’ho vissuto, e onestamente, ne sono stato un perpetratore. La reazione impulsiva a qualsiasi incidente è spesso: “Aggiungiamo un’allerta per questo!” E prima che tu te ne accorga, i tuoi ingegneri stanno annegando in notifiche, perdendo i segnali reali nel rumore, e alla fine, ignorano tutto. Questo è il Ciclo di Feedback della Fatica da Allerta in azione. Si verifica un incidente, aggiungi un’allerta, suona troppo spesso o per problemi non critici, le persone iniziano a ignorarla, un vero incidente viene trascurato, entri in panico e aggiungi *un altro* allerta. Vedi il problema?

Ricordo qualche anno fa, abbiamo avuto un problema particolarmente spinoso con un processore di pagamento upstream. La loro API occasionalmente restituiva un 500 senza molto contesto. Naturalmente, la prima cosa che abbiamo fatto è stata impostare un’allerta per qualsiasi errore 5xx da quel specifico endpoint. Ottimo, giusto? Sbagliato. L’allerta ha iniziato a suonare sporadicamente, a volte per problemi genuini, a volte per brevi interruzioni di rete che si risolvevano da sole in pochi secondi. Il nostro team di emergenza stava ricevendo notifiche alle 3 del mattino per qualcosa che si sistemava prima che potessero anche accedere. Dopo una settimana di questo, ho notato che il team ha iniziato a disattivare quel specifico canale Slack. La prossima volta che si è verificato un *vero* problema, ci sono voluti 20 minuti in più per accorgercene perché il segnale si era perso nel rumore che avevamo creato. Quella è stata la mia sveglia.

L’Anatomia della Fatica da Allerta: Perché Ci Siamo Bloccati

Quindi, perché cadiamo in questa trappola? È spesso benintenzionata. Vogliamo essere proattivi. Vogliamo cogliere i problemi prima che lo facciano i clienti. Ma i nostri metodi a volte si ritorcono contro. Ecco alcuni colpevoli comuni:

Mancanza di Contesto: Un’allerta suona, ma il messaggio è criptico. “Servizio X CPU > 90%”. Va bene, ma è grave? È sostenuta? Sta influenzando i clienti? Senza contesto, ogni allerta sembra un’esercitazione antincendio.
Inferno delle Soglie: Impostare soglie statiche che non tengono conto delle fluttuazioni normali o dell’uso di picco. Il mio esempio preferito è allertare sull’uso del disco che raggiunge l’80% su un server che contiene solo registri e si purifica automaticamente quelli vecchi. È sempre all’80% e non è mai un problema.
Monitoraggio Eccessivo di Servizi Non Critici: Sì, ogni servizio è importante, ma non ogni fallimento di servizio giustifica svegliare qualcuno alle 2 del mattino. Un lavoro batch non critico che fallisce può essere gestito durante l’orario lavorativo.
Allertare sui Sintomi, Non sulle Cause Root: Se il tuo pool di connessione al database è al massimo, allertare sull’uso della CPU potrebbe essere un sintomo. Il problema reale potrebbe essere query lente o un’applicazione inefficiente.
Poor On-Call Handoffs: I nuovi membri del team ereditano un’eredità di allerte senza comprenderne lo scopo o l’ottimizzazione. Hanno troppa paura di disabilitare qualcosa per non rompere nulla.

Spezzare il Ciclo: Strategie per un’Allerta Più Intelligente

Non si tratta di disabilitare tutte le tue allerte. Si tratta di essere chirurgici, intelligenti ed empatici nei confronti del tuo team di emergenza. Ecco come lo affronto al giorno d’oggi:

1. Concentrati sull’Impatto Aziendale, Non Solo sui Metriche di Infrastruttura

Probabilmente questo è il cambiamento più grande che puoi fare. Invece di allertare solo sui dati grezzi dell’infrastruttura, pensa a cosa significano quelle metriche per i tuoi utenti o per i tuoi obiettivi aziendali. Per una piattaforma di monitoraggio degli agenti come la nostra, questo potrebbe significare:

Check-in degli Agenti Riusciti: Il percentuale di agenti che riportano con successo dati sta diminuendo significativamente? Questo influisce direttamente sui dati che forniamo ai nostri clienti.
Latencia API per Endpoint Chiave: I nostri endpoint API principali, che gli agenti usano per caricare dati, stanno mostrando una latenza elevata che influirebbe sulla loro capacità di riportare?
Arretrato del Processo Dati: La coda dei dati degli agenti in arrivo sta crescendo in modo ingestibile, indicando un collo di bottiglia nel nostro pipeline di elaborazione?

Ecco un esempio di base per un tasso di check-in degli agenti. Diciamo che ci aspettiamo che almeno il 95% degli agenti attivi riporti ogni 5 minuti. Possiamo monitorare questo con una query di Prometheus e allertare su una diminuzione sostenuta:


sum(rate(agent_checkins_total[5m])) by (customer_id) / sum(agent_active_total) by (customer_id) < 0.95

Questa allerta è molto più preziosa di semplicemente "la CPU del server è alta" perché ci dice direttamente se la nostra proposta di valore principale è influenzata per clienti specifici.

2. Implementare Allerta Progressiva & Escalation

Non ogni problema richiede di svegliare qualcuno immediatamente. Pensa in livelli:

Livello 1 (Informativo): Registralo, invia un messaggio Slack a un canale a bassa priorità. Forse è insolito ma non critico. Esempio: "Uso del disco sul server di sviluppo X è dell'85%."
Livello 2 (Avviso): Invia un messaggio Slack a un canale dedicato a chi è di emergenza, forse un'email. Questo richiede attenzione ma non è un'emergenza. Esempio: "La dimensione della coda di elaborazione dei pagamenti ha superato i limiti normali per 15 minuti."
Livello 3 (Critico/Duty Pager): Questo è per problemi che influenzano i clienti o critici per le entrate che richiedono un'immediata intervento umano. Esempio: "Endpoint API core che sta sperimentando >1% di errori 5xx per 5 minuti."

La chiave qui è avere diversi canali di notifica e politiche di escalation per ciascun livello. Il tuo turno di emergenza dovrebbe essere allertato solo per le allerte di livello 3. Questo riduce drasticamente il numero di volte che vengono disturbati inutilmente.

3. Essere Impietosi con la Revisione e il Ripristino

Questo è dove la maggior parte dei team fallisce. Le allerte vengono impostate e poi dimenticate. Hai bisogno di un processo regolare per rivedere le tue allerte. A me piace farlo trimestralmente, o dopo qualsiasi incidente significativo. Fai queste domande:

Questa allerta è suonata di recente? Se no, è ancora rilevante? Forse il sistema sottostante è cambiato.
Se è suonata, è stata azionabile? Ha portato a una soluzione, o è stata un falso positivo o un problema transitorio?
Questa allerta potrebbe essere più intelligente? Possiamo aggiungere contesto? Possiamo cambiare la soglia? Possiamo combinarla con altri segnali?
Questa allerta ha un proprietario? Chi è responsabile della sua manutenzione?

Un trucco che ho appreso: per ogni allerta che suona e non porta a un problema critico che viene risolto immediatamente, abbiamo un elemento post-mortem da rivedere e potenzialmente ottimizzare o disabilitare quell'allerta. Questo cambia il copione da "allertare tutto" a "allerta solo su ciò che conta davvero".

4. Utilizzare il Rilevamento delle Anomalie per la Nuance

Soglie statiche sono spesso il nemico dell'allerta intelligente. Che cosa è "normale" per il tuo servizio può cambiare in base all'orario del giorno, al giorno della settimana o ai recenti deploy. Qui è dove il rilevamento delle anomalie può essere un salvatore.

Invece di "CPU > 90%", prova "l'uso della CPU è 3 deviazioni standard sopra la sua media settimanale per questo orario del giorno." Molte piattaforme di monitoraggio offrono ora funzionalità di rilevamento delle anomalie integrate. Se la tua non lo fa, puoi spesso crearne una tua con un'analisi statistica di base sui dati storici. Questo approccio è particolarmente efficace per le metriche che hanno schemi prevedibili ma possono comunque aumentare in modo imprevisto.

Ecco un frammento concettuale di Python per illustrare il controllo di un'anomalia rispetto a una base storica (questo verrebbe eseguito come parte di uno script o di un lavoro di monitoraggio più ampio):


import pandas as pd
import numpy as np
from datetime import datetime, timedelta

def check_for_anomaly(current_value, historical_data_series, std_dev_threshold=3):
 """
 Controlla se current_value è un'anomalia rispetto ai dati storici.
 historical_data_series dovrebbe essere una Serie pandas di valori per lo
 stesso slot temporale (ad es., ultimi 7 martedì alle 15:00).
 """
 if len(historical_data_series) < 5: # Necessitiamo di dati sufficienti per statistiche significative
 return False, "Non ci sono abbastanza dati storici."

 mean = historical_data_series.mean()
 std_dev = historical_data_series.std()

 if std_dev == 0: # Tutti i valori storici sono uguali, qualsiasi deviazione è un'anomalia
 return current_value != mean, "Nessuna deviazione nei dati storici."

 z_score = (current_value - mean) / std_dev
 is_anomaly = abs(z_score) > std_dev_threshold

 return is_anomaly, f"Z-score: {z_score:.2f}, Media: {mean:.2f}, Deviazione standard: {std_dev:.2f}"

# Esempio di utilizzo (in uno scenario reale, historical_data verrebbe da un database/TSDB)
# Diciamo che stiamo controllando il conteggio dei check-in degli agenti per un cliente specifico
# Dati storici per le ultime 7 occorrenze di questo specifico slot temporale
historical_checkin_counts = pd.Series([100, 105, 98, 110, 102, 103, 99])
current_checkin_count = 70 # Un calo significativo

is_anom, details = check_for_anomaly(current_checkin_count, historical_checkin_counts)

if is_anom:
 print(f"ALLERTA: Il conteggio dei check-in degli agenti è anomalo! Corrente: {current_checkin_count}. {details}")
else:
 print(f"Il conteggio dei check-in degli agenti è normale. Corrente: {current_checkin_count}. {details}")

# Un altro esempio: current_checkin_count = 105
# is_anom, details = check_for_anomaly(105, historical_checkin_counts)
# print(f"Il conteggio dei check-in degli agenti è normale. Corrente: 105. {details}")

Questo ti allontana da regole arbitrarie "se X > Y" verso una comprensione più sfumata di cosa "normale" sembri realmente per i tuoi sistemi.

Takeaway Azionabili per il Tuo Team

Va bene, come metti tutto questo in pratica? Ecco la tua guida:

Fai un Audit delle Tue Attuali Notifiche: Dedica una settimana a questo. Controlla ogni singola notifica. Per ciascuna, chiediti: "Chi riceve questo? Perché? Qual è l'azione prevista? È veramente critica?" Disabilita o riclassifica tutto ciò che non soddisfa il tuo nuovo standard critico.
Definisci i Tuoi Livelli di Notifica: Documenta chiaramente cosa costituisce una notifica informativa, di avviso e critica. Mappa questi livelli a metodi di notifica specifici (canale Slack, email, PagerDuty).
Passa a Metriche di Impatto sul Business: Per le nuove notifiche, prioritizza metriche che riflettono direttamente l'esperienza del cliente o la disponibilità delle funzioni aziendali fondamentali rispetto all'utilizzo delle infrastrutture.
Implementa un Processo di Revisione delle Notifiche: Pianifica una riunione ricorrente (mensile, trimestrale) specificamente per rivedere l'efficacia delle notifiche. Rendi la regolazione o la disabilitazione delle notifiche una parte naturale del tuo processo di analisi post-incidente.
Istruisci il Tuo Team: Assicurati che tutti comprendano la nuova filosofia. Sottolinea che un pager silenzioso significa che stai facendo le cose nel modo giusto, non che stai trascurando qualcosa. Promuovi una cultura in cui disabilitare una notifica inutile è celebrato, non temuto.

Interrompere il loop di feedback della Fatica da Notifiche non è una soluzione temporanea. È un impegno continuo verso un monitoraggio attento e mirato. Ma fidati, il tuo team di turno – e i loro orari di sonno – ti ringrazierà per questo. E quando si presenta una questione davvero critica, il segnale sarà chiaro, forte e impossibile da ignorare. Questa è la potenza delle notifiche intelligenti.

Il mio ciclo di feedback sulla fatica da allerta: come sono riuscito a liberarmi

L’Anatomia della Fatica da Allerta: Perché Ci Siamo Bloccati

Spezzare il Ciclo: Strategie per un’Allerta Più Intelligente

1. Concentrati sull’Impatto Aziendale, Non Solo sui Metriche di Infrastruttura

2. Implementare Allerta Progressiva & Escalation

3. Essere Impietosi con la Revisione e il Ripristino

4. Utilizzare il Rilevamento delle Anomalie per la Nuance

Takeaway Azionabili per il Tuo Team

Articoli Correlati

Related Articles

L’Anatomia della Fatica da Allerta: Perché Ci Siamo Bloccati

Spezzare il Ciclo: Strategie per un’Allerta Più Intelligente

1. Concentrati sull’Impatto Aziendale, Non Solo sui Metriche di Infrastruttura

2. Implementare Allerta Progressiva & Escalation

3. Essere Impietosi con la Revisione e il Ripristino

4. Utilizzare il Rilevamento delle Anomalie per la Nuance

Takeaway Azionabili per il Tuo Team

Articoli Correlati

You May Also Like

📚 You Might Also Like

Related Articles