Domando o monstro de custos da GenAI: como o DoiT Cloud Analytics e os application inference profiles deixam os custos do AWS Bedrock cristalinos

No velho oeste da IA generativa, o seu orçamento pode rapidamente virar o pistoleiro mais rápido da cidade — abrindo buracos nas finanças que você planejou com tanto cuidado antes mesmo de você perceber o que aconteceu. Com a corrida das empresas para adotar foundation models como o Amazon Nova e outros pelo Amazon Bedrock, muitas estão descobrindo uma verdade incômoda: acompanhar quem gasta o quê com IA pode ser tão difícil quanto contar gotas de chuva no meio de uma tempestade.

É aí que entram os application inference profiles do Amazon Bedrock — os heróis anônimos da gestão financeira de GenAI, capazes de salvar o seu orçamento (e talvez o seu emprego). Combinados com o DoiT Cloud Intelligence™, viram uma solução poderosa que transforma gastos nebulosos com IA em insights cristalinos.

Leia gratuitamente: https://medium.com/@edu7mota/07dc441e3a3a?source=friends_link&sk=67ef0d4c71aa421702b8f7272fe036a5

O problema doloroso: gastos invisíveis com IA

Se você já colocou foundation models em produção, provavelmente já passou por aquele momento de pavor quando a fatura da AWS chega. "Quem gastou TUDO ISSO em consultas ao Amazon Nova no mês passado?" Sem um rastreamento adequado, os seus gastos com GenAI são praticamente uma caixa-preta — você sabe que o dinheiro está saindo, mas para onde, exatamente? Com qual finalidade? E por conta de quem?

Os application inference profiles oferecem às empresas uma forma poderosa de rastrear, alocar e gerenciar custos ligados à invocação de foundation models no Amazon Bedrock. Lançados pela AWS como parte do stack de serviços de IA generativa, esses profiles dão controle granular sobre atribuição de custos e monitoramento de uso de recursos entre departamentos, equipes e aplicações.

Afinal, o que são application inference profiles?

Pense nos application inference profiles como identificadores especiais que você anexa às chamadas de API dos seus foundation models. Ao criar um application inference profile, você define um único foundation model em uma região ou um inference profile cross-region (definido pelo sistema). Uma vez configurado, qualquer requisição de invocação feita pelo profile é registrada e marcada de acordo, viabilizando rastreamento detalhado e atribuição de custos.

Esses profiles atuam como um mecanismo de roteamento que mantém a ligação entre cada requisição de IA e a sua origem — seja uma equipe específica, uma aplicação ou um cliente.

Três casos de uso transformadores (que vão salvar a sua sanidade)

1. Alocação de custos multi-tenant: quem está usando o quê?

Se você está construindo um produto SaaS com recursos de GenAI, provavelmente já se perguntou: "Quanto cada cliente nos custa em uso de IA?"

Com os application inference profiles, dá para criar um profile exclusivo para cada cliente ou tenant. Toda vez que ele interage com a sua IA, o uso fica registrado no profile correspondente. Isso significa que você pode:

Ver exatamente quanto cada cliente custa em uso de foundation models
Identificar power users que talvez precisem de outro plano de preço
Detectar anomalias que podem indicar uso indevido ou bugs
Construir modelos de precificação mais precisos com base em padrões reais de uso

2. Rastreamento de custos por equipe: responsabilização sem drama

O grande benefício é poder alocar os custos de invocação de modelos entre diferentes unidades de negócio, equipes ou projetos usando AWS cost allocation tags. Isso viabiliza um chargeback preciso e responsabilização departamental pelo uso de IA.

Imagine os times de marketing, produto e atendimento ao cliente usando todos o mesmo modelo Amazon Nova. Sem um rastreamento adequado, você nunca vai saber qual grupo é responsável por qual fatia da fatura. Os application inference profiles permitem que você:

Crie profiles separados para cada equipe ou departamento
Monitore padrões de uso para identificar períodos de alto consumo
Implemente controles ou cotas de custo específicos por equipe
Habilite chargeback justo para os centros de custo apropriados

3. Rastreamento por ambiente: do dev ao prod

Um dos aspectos mais espinhosos de gerenciar workloads de GenAI é entender como os custos variam entre os ambientes de desenvolvimento. Os seus devs estão acumulando contas enormes em testes? O ambiente de produção está otimizado? Os application inference profiles ajudam a:

Separar custos entre desenvolvimento, staging e produção
Identificar picos inesperados de custo durante as fases de teste
Garantir que experimentos em desenvolvimento não estourem o orçamento
Criar previsões precisas para escalar até a produção

Crie um application inference profile

Para criar um application inference profile, só dá para usar a API ou o AWS SDK. São 3 informações principais a fornecer:

O nome do inference profile
O modelo a ser usado pelo profile
As tags a serem associadas a esse profile

Veja a seguir um exemplo de como criar um inference profile:

import boto3

client = boto3.client("bedrock")

response = client.create_inference_profile(
    inferenceProfileName='Customer A Inference Nova Lite',
    description='Inference profile for all workloads for customer A',
    modelSource={
        'copyFrom': 'arn:aws:bedrock:us-west-2:058264544288:inference-profile/us.amazon.nova-lite-v1:0'
    },
    tags=[\
        {\
            'key': 'customer',\
            'value': 'customer a'\
        },\
        {\
            'key': 'environment',\
            'value': 'dev'\
        },\
    ]
)

Como o DoiT Cloud Intelligence transforma o seu FinOps de GenAI

É aqui que o DoiT Cloud Intelligence brilha de verdade, transformando dados brutos de rastreamento em inteligência acionável.

O DoiT incorpora várias categorias de tags da AWS na sua plataforma de analytics, incluindo as AWS Cost Allocation Tags. Quando aplicadas corretamente aos seus application inference profiles, essas tags se tornam ferramentas poderosas para a gestão de custos de GenAI.

Com o DoiT Cloud Intelligence, você pode:

Criar análises sofisticadas de custos: visualize os gastos com GenAI em várias dimensões ao mesmo tempo — por equipe, por cliente, por ambiente e muito mais.
Identificar tendências e anomalias: usar tags da AWS no DoiT Cloud Intelligence traz vários benefícios relevantes, como o detalhamento granular de custos, em que você visualiza gastos por projeto, equipe, ambiente ou qualquer outra dimensão relevante para o negócio. Isso ajuda a identificar padrões de uso e detectar atividades fora do comum, que podem indicar ineficiências ou problemas.
Projetar custos futuros com precisão: empresas que adotam um rastreamento de custos baseado em tags da AWS por meio do DoiT podem esperar uma melhora de até 20% na precisão das projeções de custo e um aumento de cerca de 15% na eficiência geral do orçamento.
Visibilidade entre contas: um dos diferenciais do DoiT é incorporar AWS Organization Tags aos dados de billing de forma transparente, sem configuração adicional. Esse recurso resolve uma grande dor para quem segue as boas práticas da AWS de implantar aplicações em várias contas.

O diferencial do DoiT na gestão de custos de GenAI

O DoiT Cloud Intelligence oferece vantagens únicas para empresas que usam o Amazon Bedrock:

Interface de analytics simplificada

No DoiT Cloud Intelligence, as tags da AWS estão disponíveis em várias seções ao criar ou alterar relatórios:

Seção Labels: contém AWS cost allocation tags ao lado de labels do Google Cloud e tags do Azure
Seção System Labels: inclui labels gerados de forma sistemática pelo DoiT e pela AWS
Seção AWS Organization tags: dedicada às organization tags para rastreamento entre contas

Além do básico: casos de uso avançados

Ao combinar os application inference profiles com o DoiT Cloud Intelligence, você desbloqueia casos de uso ainda mais sofisticados:

Análise de custos por funcionalidade

Ao criar profiles alinhados a funcionalidades específicas do produto, dá para saber exatamente quanto custa operar cada capacidade de IA. Isso é valiosíssimo para priorizar funcionalidades e definir estratégias de precificação.

Eficiência de custos em testes A/B

Está rodando um teste A/B entre diferentes foundation models ou estratégias de prompting? Crie inference profiles separados para cada variante do teste e compare não só o desempenho, mas também a eficiência de custos.

Orçamento por projeto

Para empresas que trabalham por projeto, os inference profiles podem ser atribuídos a iniciativas específicas, permitindo um rastreamento preciso dos gastos com IA por projeto.

Mãos à obra: um caminho simples de implementação

Implementar essa combinação poderosa é mais simples do que parece:

Crie profiles pela API do Amazon Bedrock: use a requisição CreateInferenceProfile em um endpoint do control plane do Amazon Bedrock.
Os campos obrigatórios são mínimos: basta informar um nome de profile e a fonte do modelo (um foundation model ou um inference profile cross-region).
Adicione AWS cost allocation tags: marque os profiles com as dimensões adequadas para rastreamento de custos e garanta que estejam ativas nas configurações de cost allocation tags.
Roteie as chamadas de modelo pelos profiles: atualize o código da sua aplicação para usar o ARN do profile em vez de chamar os modelos diretamente.
Conecte ao DoiT Cloud Intelligence: use a plataforma do DoiT para transformar dados brutos de custo em insights acionáveis em uma interface intuitiva.

Conclusão: clareza de custos em um mundo complexo de IA

À medida que os workloads de IA crescem em escala e importância, a combinação dos application inference profiles com o DoiT Cloud Intelligence se torna essencial para manter o controle financeiro. Em vez de voar às cegas com os investimentos em GenAI, essa dupla poderosa entrega a visibilidade e o controle necessários para tomar decisões embasadas, otimizar os gastos e garantir que as iniciativas de IA continuem financeiramente sustentáveis.

O melhor de tudo? A solução já funciona com os foundation models existentes do Amazon Bedrock hoje — sem precisar esperar por melhorias futuras nem reformular a sua arquitetura atual. É um passo prático e imediato para domar o monstro de custos da GenAI à espreita na sua fatura da AWS.

Antes da sua próxima invocação de foundation model, pergunte-se: você sabe exatamente quem está pagando por ela? Com os application inference profiles e o DoiT Cloud Intelligence, agora dá para saber.

Para saber mais sobre cost allocation tags com o DoiT, acesse: https://help.doit.com/docs/amazon-web-services/supported-aws-cost-allocation-tags

Visite https://www.doit.com e descubra como podemos ajudar você a gerenciar os seus custos de GenAI.