Capacity planning com NetFlow/sFlow: ver o gargalo antes do cliente
O pior jeito de descobrir que um uplink saturou é pelo telefone do suporte. Quando o cliente liga reclamando de lentidão à noite, o gargalo já existe há semanas, escondido nos picos de horário nobre que ninguém olhou. Capacity planning sério não é adivinhação nem é só olhar um gráfico de banda no Zabbix: é ter visibilidade de quem consome o quê e por onde sai o tráfego. É exatamente para isso que servem NetFlow e sFlow. Eles transformam o vago "o link está em 8 Gbps" em algo acionável, do tipo "uma fatia relevante disso é vídeo vindo pelo trânsito IP pago em vez do PNI, e está crescendo mês a mês".
Por que o gráfico de banda não basta
Um gráfico SNMP de utilização de interface responde uma única pergunta: quanto está passando. Ele não diz para onde vai, de qual ASN vem, nem qual protocolo ou destino está puxando o pico. E esconde detalhe pela média: uma coleta de 5 minutos achata microbursts que estouram o buffer e geram perda de pacote sem nunca "encostar" no teto da interface.
Capacity planning precisa de três coisas que o SNMP puro não entrega:
- Composição do tráfego — por ASN de origem/destino, prefixo, porta e aplicação.
- Caminho — saiu pelo IX.br, pelo PNI da CDN ou pelo trânsito caro?
- Tendência — o crescimento é orgânico ou foi um evento pontual (lançamento de jogo, atualização de console)?
NetFlow e sFlow respondem essas três. O SNMP responde só a primeira, e ainda de forma agregada.
NetFlow x sFlow: escolha pela realidade do seu parque
Os dois resolvem o mesmo problema por caminhos diferentes, e o que você usa depende mais do roteador do que da preferência:
- NetFlow (e o padrão IPFIX) é baseado em fluxo. O roteador mantém uma tabela de fluxos e exporta registros agregados. Dá visibilidade rica e relativamente precisa, mas consome CPU e memória do equipamento. É o terreno da Cisco (NetFlow/Flexible NetFlow) e da Juniper (J-Flow/IPFIX). Em Huawei, o equivalente é o NetStream.
- sFlow é amostragem: o switch ou roteador captura 1 a cada N pacotes e manda o header bruto. Custa muito menos para o hardware, escala melhor em alto pps e domina o mundo dos switches de datacenter e boa parte da linha de borda.
No parque típico de ISP brasileiro tem Mikrotik no meio de tudo. O RouterOS exporta NetFlow/IPFIX via Traffic Flow nativamente — barato e suficiente para a maioria das bordas pequenas e médias. Em caixas com pps muito alto, prefira sFlow se o equipamento suportar, para não cobrar o overhead de fluxo da CPU.
Detalhe que economiza dor de cabeça: defina uma taxa de amostragem coerente. sFlow a 1:2000 num link de 100 Mbps quase não enxerga nada; o mesmo 1:2000 num link de 100 Gbps é estatisticamente sólido. Amostra rápido demais em link grande derruba a CPU; lenta demais em link pequeno gera ruído. Calibre por interface, não no copia-e-cola.
O que medir para planejar capacidade de verdade
Coletar flow sem método vira um banco de dados gigante que ninguém consulta. O que importa para capacity planning:
- Percentil 95 por uplink e por peering, não a média. O 95º percentil é a métrica de cobrança e de dimensionamento — é o que diz se você precisa de mais porta antes de o estouro virar perda.
- Top talkers por ASN de destino. Se um punhado de grandes provedores de conteúdo domina o volume (e geralmente domina), a pergunta de capacidade vira pergunta de peering.
- Razão entre trânsito e troca direta. Quanto do tráfego pesado está saindo pelo trânsito IP pago que poderia ir de graça pelo IX.br ou por um PNI com a CDN? Esse número é dinheiro.
- Curva de crescimento por classe de tráfego. Vídeo, jogos e atualização de SO crescem de forma diferente. Projetar a reta dos últimos meses dá uma data estimada de saturação para cada porta.
Da medição à decisão: engenharia de tráfego
Os dados de flow só valem se viram ação. Os movimentos clássicos:
- Puxar volume do trânsito para o IX.br. Identificou no flow que um ASN grande responde por uma fatia relevante e ele está no PIX/IX da sua região? Estabeleça o peering. Cai custo e cai latência ao mesmo tempo.
- Negociar PNI/cache com CDNs. Netflix (Open Connect), Google (GGC), Meta e Akamai oferecem appliances de cache ou interconexão direta. O flow é a sua evidência na conversa: você chega com o volume real, não com estimativa.
- Balancear saída com BGP. Com a foto de para onde vai o tráfego, dá para ajustar local-preference, MED e AS-path prepend e usar melhor os uplinks que você já paga, antes de comprar porta nova.
- Antecipar o upgrade. Se o p95 de um uplink cruza a faixa de 70% de forma consistente e a tendência aponta saturação no próximo trimestre, você negocia o aumento com prazo — em vez de pagar burst emergencial ou queimar reputação no pico de domingo à noite.
Vale lembrar do contexto regulatório: o Marco Civil da Internet obriga a guarda de registros de conexão. Flow não é log de aplicação nem substitui o que a lei pede, mas a disciplina de coletar, reter e correlacionar dados de rede caminha junto com manter a casa em ordem para a Anatel e para resposta a incidentes.
Onde isso encosta na operação
A parte chata é a sustentação: coletor de flow, retenção, dashboards que alguém de fato abre e o cruzamento entre o ASN do flow e o inventário (qual cliente, qual PTT, qual contrato de trânsito). Flow solto num coletor open-source resolve o "ver"; o "agir com contexto" exige cruzar isso com o inventário/DCIM e o IPAM — saber que aquele prefixo é do cliente X, naquele POP, naquele uplink. É aí que monitoramento isolado vira engenharia de capacidade. No NetPulse, nossa plataforma de NOC multi-tenant, esse cruzamento entre monitoramento, inventário e documentação fica num lugar só, o que encurta o caminho do gráfico até a decisão de peering ou upgrade.
Conclusão
Capacity planning não é sobre comprar banda — é sobre saber quando e onde comprar, e quanto dá para evitar trocando trânsito por peering. NetFlow e sFlow são a diferença entre operar reagindo a reclamação e operar enxergando a curva antes de o cliente sentir.
Se você quer montar essa visibilidade — coleta de flow, p95 por peering, estratégia de IX.br e CDN, ou um NOC que acompanha isso 24/7 — a CloudFace faz tanto a consultoria e operação quanto entrega a plataforma (NetPulse) para sustentar. Chame no WhatsApp para um diagnóstico inicial gratuito do seu tráfego de borda; a gente olha junto onde está o próximo gargalo.