Fazendo a ponte entre o hype e a realidade quando se trata do que a inteligência artificial e machine learning (aprendizado de máquina) podem fazer para ajudar a proteger um negócio.
Embora a inteligência artificial (IA, ou AI em inglês) e machine learning (ML) estejam longe de serem novos, muitos em segurança de repente acreditam que essas tecnologias irão transformar seus negócios e permitir que eles detectem todas as ameaças cibernéticas que surjam em seu caminho. Mas, em vez disso, o hype pode criar mais problemas do que resolver.
Recentemente, a empresa de segurança cibernética ESET entrevistou 900 tomadores de decisão de TI sobre suas opiniões a respeito de inteligência artificial e machine learning em práticas de segurança cibernética.
De acordo com a pesquisa, “o recente hype em torno da inteligência artificial e machine learning está enganando três a cada quatro tomadores de decisão de TI (ou seja, 75% deles) a acreditar que as tecnologias são a ‘bala de prata’ para resolver seus desafios de segurança cibernética”.
O hype, diz a ESET, causa confusão entre as equipes de TI e pode colocar as organizações em maior risco de serem vítimas de cibercrime. De acordo com o CTO da ESET, Juraj Malcho, “quando se trata de IA e ML, a terminologia usada em alguns materiais de marketing pode ser enganosa e tomadores de decisões de TI em todo o mundo não têm certeza do que acreditar”.
Olhando além do ciclo de hype, as equipes de TI podem obter um valor real de machine learning e da inteligência artificial disponível hoje.
Tipos de ‘Aprendizagem’
Apesar do que o marketing diz, existem diferentes maneiras de implementar machine learning – aprendizado supervisionado ou não supervisionado.
Na aprendizagem supervisionada, dados específicos são coletados e a saída definida é usada para criar programas. Isso requer treinamento real do sistema. Em outras palavras, um humano deve fornecer os dados de saída esperados para tornar o sistema útil. A maioria das equipes de TI reluta em fazer isso porque não remove os humanos do sistema.
O aprendizado não supervisionado é o que o mercado está procurando, pois remove o humano. Você não precisa da saída neste modelo. Em vez disso, você alimenta dados no sistema e ele procura padrões dos quais programa dinamicamente.
Faça as perguntas certas
A maioria das equipes de TI deseja simplesmente fazer perguntas mais amplas e obter resultados para consultas do tipo: “encontrar movimento lateral”. Infelizmente, isso não é possível hoje.
Mas você pode usar o ML/IA para identificar características de movimento lateral, fazendo perguntas como: “Este usuário fez login durante este período?”, ou “O usuário já se conectou a este servidor?”, ou “O usuário geralmente usa este computador?”. Esses tipos de perguntas são descritivas, não preditivas. Eles inferem respostas comparando dados novos e históricos.
Os analistas seguem um ataque por um caminho lógico e fazem perguntas em cada etapa. Os computadores identificam desvios das baselines e determinam o nível de risco que rastreia as anomalias. Este é o cruzamento onde máquinas e humanos se juntam para obterem melhores resultados.
O que pode ser feito hoje com o ML/IA?
Na realidade, você deve identificar uma forte baseline da estrutura de dados para obter valor do ML/IA. Só então você pode avaliar os dados de entrada e fazer associações entre os dados de entrada e o estado normal da rede.
Aqui estão ameaças que ML/IA podem identificar:
DNS Data Exfiltration
Embora isso seja difícil de evitar, é facilmente detectado porque o sistema pode examinar o tráfego de DNS e saber quando as consultas de DNS vão para um servidor autoritativo, mas não recebem uma resposta válida. Quando consultas como 0800fc577294c34e0b28ad2839435945.badguy.example[.]net são enviadas muitas vezes de uma determinada máquina de uma rede, o sistema pode alertar os profissionais de TI.
Uso indevido de credenciais
De acordo com o relatório de Investigações de Violação de Dados 2018 da Verizon, os seres humanos são um dos maiores problemas para as organizações. 96% dos ataques vêm de e-mails. Em média, apenas 4% das pessoas se enquadram em qualquer ataque de phishing, mas um agente malicioso só precisa de uma vítima para fornecer credenciais.
Machine learning é útil aqui porque os usuários foram baseados em baseline. Esses usuários se conectam e fazem login em um número definido de dispositivos por dia. É fácil para um ser humano ver quando uma credencial é tentada centenas de vezes em um servidor, mas é difícil identificar alguém que tenta se conectar a 100 máquinas diferentes na rede e só consegue uma vez.
Embora estejamos longe de ser um tipo de inteligência artificial capaz de solucionar todos os problemas de segurança cibernética, é importante entender o que é real e o que é hype. Como Malcho afirmou, “a realidade da cibersegurança é que a verdadeira IA ainda não existe. À medida que o cenário de ameaças se torna ainda mais complexo, não podemos nos dar ao luxo de tornar as coisas mais confusas para as empresas. É necessário que haja maior clareza, pois a campanha publicitária está confundindo a mensagem para aqueles que tomam decisões importantes sobre a melhor forma de proteger as redes e os dados da empresa”.
Por fim, as melhores soluções serão uma combinação de modelos de aprendizado supervisionado e não supervisionado: aproveitando o aprendizado supervisionado para identificar padrões granulares de comportamentos maliciosos, enquanto algoritmos não supervisionados desenvolvem uma baseline para a detecção de anomalias. Os humanos não serão eliminados desta equação tão cedo.
.
* * * * *
.
O autor, Justin Jett, é diretor de auditoria e compliance na Plixer, com funções que vão desde administração de sistemas de serviços web até marketing de produto técnico. Ele é formado pela Universidade do Maine em Farmington e é um ávido aprendiz de todas as coisas de segurança, com um interesse particular em ataques TLS e DNS.
.
Publicado originalmente no ThreatPost em 23 de agosto de 2018.
Este conteúdo foi traduzido com permissão. ThreatPost não é afiliado com este site.
Tradução por Tiago Souza
Imagem deste post: banco de imagens pixabay (geralt)
.