Machine learning: insights acionáveis a partir de dados

Empresas que querem extrair mais valor dos seus dados precisam olhar para o machine learning. Mostramos por quê e apresentamos casos de empresas data-driven usando ML com sucesso.

DoiT-Machine-Learning-Data-DoiT

Como o ML pode ajudar você a extrair valor de negócio real dos seus dados

A missão de se tornar mais data-driven vem motivando empresas há anos. Cientes de que estão imersas em dados capazes de embasar decisões de negócio que esmagam a concorrência, elas perseguem incansavelmente estratégias para extrair mais valor dessas informações — com resultados desiguais.

Uma das áreas da tecnologia com maior potencial nesse sentido é o machine learning (ML). No Google Next 2022, inclusive, Irina Farooq, Senior Director, Product Management, Smart Analytics no Google Cloud, previu que até 2025, 90% dos dados serão acionáveis por meio de ML.

Vamos entender o que torna o sucesso data-driven tão difícil, o papel do ML na extração de valor dos dados e os resultados concretos que ele já vem gerando.

Por que os dados não estão gerando valor

Pesquisas mostram a dificuldade que as empresas têm de transformar dados em valor de negócio. Depois de uma pesquisa da Accenture de 2019 revelar que apenas 32% das empresas conseguem obter valor tangível dos seus dados, um estudo da NewVantage de 2021 mostrou que só 24% dos executivos consideram suas empresas data-driven. As organizações estão administrando infraestrutura de dados, movimentando informações e disponibilizando-as aos usuários, muitas vezes sem um roadmap claro para colocar todo esse potencial em prática.

Entre os obstáculos para tirar valor de negócio dos dados estão a cultura corporativa, o volume gigantesco de informações que inunda as organizações e as preocupações com propriedade e privacidade. Diante desses desafios, muitos líderes têm dificuldade em montar estratégias de dados realistas. Alguns adotam um programa centralizado, com uma única equipe extraindo, limpando e agregando dados, o que gera uma abordagem genérica e quase sempre desalinhada das necessidades específicas dos usuários finais. Outros optam por equipes separadas para criar pipelines de dados sob medida — com pouco potencial de reaproveitamento.

O caminho é outro: as empresas precisam desenhar estratégias de dados incrementais, prontas para entregar valor rápido, mas com escalabilidade já prevista para uso futuro.

Como o machine learning pode ajudar

O machine learning é um ramo da inteligência artificial (IA) que alimenta algoritmos com dados históricos para identificar padrões e prever resultados futuros. Esse foco em usar os dados para gerar previsões, decisões e recomendações é o que o torna tão atraente para organizações data-driven.

Os algoritmos de ML processam dados históricos (geralmente chamados de dados de treinamento) para criar um modelo preditivo. Cada dataset de ML é composto por variáveis (features) e observações (registros). As soluções preditivas de ML precisam identificar as variáveis independentes (entradas) que mais influenciam a variável dependente — o resultado que queremos prever.

Já os modelos de ML não supervisionados agrupam e categorizam dados para identificar padrões, em vez de prever resultados. É isso que permite, por exemplo, que empresas de streaming de conteúdo ajudem seus clientes a descobrir conteúdos do interesse deles via recomendações e busca.

Como aproveitar o ML de forma eficaz

O ML não é uma varinha de condão para gerenciar dados. Empresas com sistemas legados terão de modernizá-los para garantir que funcionem bem com soluções de ML. Os stakeholders relevantes precisam priorizar a qualidade dos dados brutos que alimentam o dataset de treinamento em todas as etapas — da aquisição dos dados à preparação e à avaliação dos resultados. Isso significa que a liderança precisa apoiar as soluções de machine learning como caminho para atingir objetivos e metas de negócio claramente definidos.

A importância da qualidade dos dados

Algoritmos de machine learning treinados com datasets de baixa qualidade produzem resultados imprecisos. Dados brutos extraídos de cenários reais sempre estarão sujeitos a ruído e valores ausentes provocados por erros manuais, problemas técnicos, eventos imprevistos e outros fatores. Mas, em geral, os algoritmos não foram projetados para lidar com valores ausentes, e o ruído pode comprometer o padrão real da amostra. Por isso, é necessário fazer o pré-processamento dos dados antes que o algoritmo possa consumi-los. Esse processo preenche valores ausentes, remove ruído, resolve inconsistências e elimina outliers.

Validando seu modelo de ML

Depois de construir seu modelo de ML, é hora de avaliar a utilidade dele no mundo real. Escolher a métrica de validação certa é especialmente importante em datasets desbalanceados, em que a distribuição das classes é bastante assimétrica e a amostra da classe positiva é tão pequena que o modelo não consegue aprender.

Esse é um problema comum em iniciativas de ML em medicina e genômica. Imagine, por exemplo, que você está desenvolvendo um algoritmo de classificação que prevê se uma pessoa tem ou não um distúrbio genético. Se apenas 1% da população tem esse distúrbio, dá para criar um classificador que sempre prevê que a pessoa não tem a doença — o modelo teria 99% de acurácia, mas seria totalmente inútil. Esse desbalanceamento pode ser tratado com técnicas de subamostragem aleatória da classe majoritária e sobreamostragem da classe minoritária, e detectado com métricas mais adequadas, como o F1-score em vez da acurácia.

Confiando nos dados

No Google Next 22, Irina Farooq falou sobre a necessidade de enxergar e confiar nos dados para que o ML seja eficaz. Isso significa usar ferramentas automatizadas de catalogação para descobrir e gerenciar seus dados em um único local centralizado. Você também precisa trabalhar com os dados em tempo real, então é importante combinar ferramentas proprietárias e open-source de forma equilibrada para que seus times atuem sobre todos os dados e, depois, aplicar streaming analytics para trabalhar com as informações na medida em que são coletadas.

Quando o assunto é confiança, a explicabilidade virou um elemento central do ML, jogando luz sobre o que acontece dentro de um modelo entre a entrada e a saída e dando uma nova ênfase à transparência. A inteligência artificial explicável (XAI) surgiu como um conjunto de processos e métodos para tornar os resultados e as saídas dos algoritmos de machine learning compreensíveis e confiáveis. É um ponto-chave para empresas que querem conduzir iniciativas de ML responsáveis.

Otimizando seus modelos

Ciclos curtos de feedback também são essenciais para garantir que suas iniciativas de ML entreguem valor de verdade. A otimização iterativa dos modelos reduz o erro entre a saída prevista e a saída real, medido por uma função de custo. Para evitar gerar modelos que não vão para frente a partir da sua prova de conceito de ML, deve haver uma forte correlação entre a função de custo otimizada usada no algoritmo e uma métrica de negócio como o ROI.

Práticas como escrever testes automatizados, adotar integração e entrega contínuas (CI/CD) e fazer testes de usuário consistentes antes de lançar uma iniciativa de ML mais ampla aceleram bastante a otimização dos seus modelos. Ao aplicar princípios de DevOps em todas as etapas da construção do sistema de ML, as organizações podem caminhar rumo a uma cultura madura de MLOps, em que tanto os pipelines de ML quanto os de CI/CD são automatizados.

Onde o ML está gerando insights valiosos

A DoiT atende uma série de clientes que aplicam machine learning aos seus dados de formas criativas — com resultados impressionantes. Veja alguns exemplos:

Uma experiência de varejo mais fluida

A CB4 usa ML para tornar a experiência na loja mais simples para colaboradores e clientes do varejo. Com a solução baseada em ML, a equipe da loja pode fazer ajustes simples, como pedir unidades adicionais de um produto ou tirar outro item do estoque para atender clientes e gerar novas vendas. Cada loja recebe uma lista personalizada de recomendações de SKUs (stock-keeping units) que poderia vender mais, com base em seus padrões de venda e condições operacionais únicas.

A CB4 usou ferramentas do Google Cloud e trabalhou com a DoiT para construir um pipeline de dados mais enxuto, operações de ML 30% mais performáticas e maior visibilidade de custos. O novo sistema também ajuda a empresa a garantir o armazenamento seguro dos dados, em conformidade com o GDPR e outras regulamentações internacionais de proteção de dados. Do ponto de vista de performance, é fácil integrar novos varejistas à solução de dados e manter alta disponibilidade mesmo em picos de demanda e durante a escala.

Storytelling online em escala

A Apester ajuda empresas a transmitirem suas mensagens por meio de experiências sociais interativas — como quizzes e enquetes — que se integram facilmente aos sites e podem ser distribuídas em larga escala. Conforme o número de usuários cresceu e ampliou o volume de dados, a empresa precisou adotar uma solução de business intelligence (BI) e data warehousing facilmente escalável.

Construiu essa solução em torno do Google Cloud, incorporando Cloud Dataflow, Cloud Dataproc e Cloud Bigtable para processamento de dados e analytics. Com seus recursos nativos de ML e BI, o data warehouse BigQuery se tornou a principal solução de analytics da Apester. Os dados no BigQuery e o trabalho da empresa com módulos do Cloud Natural Language criaram a base para uma iniciativa de ML, e hoje ela investe pesado nessa frente. Usa a plataforma Tensorflow em seu pipeline, o que permite acelerar a resposta às necessidades dos clientes mesmo enquanto cresce.

Detecção de fraudes em tempo real

A empresa de detecção de fraudes 24metrics oferece uma solução chamada ClickShield, que ajuda empresas a identificar usuários fraudulentos em tempo real. Normalmente, leva semanas para confirmar se os usuários de um app são reais e não bots, mas a 24metrics usa ML em suas soluções para prever a qualidade dos usuários. A DoiT ajudou a empresa a identificar as ferramentas de ML adequadas e, depois de uma sessão inicial com o time da DoiT, eles conseguiram treinar o primeiro modelo por conta própria.

Insatisfeitos com os resultados desse primeiro modelo, voltaram a consultar a DoiT, que ajudou a analisar os resultados, identificar possíveis problemas na abordagem de treinamento e oferecer alternativas. Seguindo as recomendações da DoiT, desenvolveram rapidamente um modelo bem treinado, que a DoiT ajudou a colocar em produção de forma econômica. A 24metrics tinha projetado mais de cinco meses para construir o algoritmo de ML e lançar a nova funcionalidade, mas, com o suporte da DoiT, tudo levou apenas dois meses e foi mais simples do que o esperado.

Edição de conteúdo intuitiva em escala

Os apps da Lightricks, como Facetune, Videoleap e Photoleap, ajudam a agilizar a edição de conteúdo para videomakers profissionais, designers gráficos e criadores de sites. Como algumas campanhas de anúncios online exigem relatórios quase instantâneos sobre vários terabytes de dados, esses apps ingerem e analisam volumes enormes de dados predominantemente mobile, muitas vezes em tempo quase real. A empresa usa o Google Cloud Dataflow para processar dados de comportamento dos usuários, que depois são ingeridos no BigQuery para análise em escala.

A DoiT oferece suporte contínuo para esse programa elaborado de machine learning, com orientação que vai da arquitetura à resolução de problemas. A Lightricks está expandindo seu programa de ML, e os times de marketing, otimização de produto e mecanismo de recomendação já estão criando seus próprios modelos. Após começar com ML autogerenciado no Google Cloud Compute Engine, a empresa vem migrando aos poucos para serviços gerenciados no Vertex AI do Google Cloud para escalar ainda mais rápido.

Próximos passos

O machine learning talvez não seja a solução completa para empresas que se debatem com seus dados, mas pode ser parte importante dela. Com a liderança, a cultura e as estruturas certas, dá para usar o ML para extrair valor dos dados de forma rápida e eficaz, tirando o máximo de retorno para o negócio. Para empresas que estão avaliando o ML como parte da sua estratégia de dados e também para aquelas já bem avançadas nessa jornada, a DoiT oferece suporte e orientação para acelerar e otimizar seus esforços.