Laboratório de Dependabilidade e Segurança Lades Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz RENASIC/CD-CIBER
CD Ciber CTC - Comitê Técnico Científico RENASIC CD Comitê Diretor ASTECA VIRTUS LAPAD LABIN LATIM PROTO ENTIDADES ASSOCIADAS QUANTA LAPROJ LADES 2
LADES Projeto Inicial: SALTAR Sistema de Análise de Link e Tráfego de dados em Redes de Comunicações Outros projetos 3
PROJETO SALTAR PLATAFORMA DE DPI UNIDADE DE ARMAZENAMENTO Dados não processados UNIDADE DE ACCESSO E PROCESSAMENTO DE DADOS Metadados Metadados DB Conteúdo DB Conteúdo filtrado Autoridade de Segurança Anomalias identificadas Algoritmos de Aprendizado de Máquina UNIDADE DE MINERAÇÃO DE DADOS 4
PROJETO SALTAR Algoritmos de Aprendizado de Máquina BIG DATA DoD: investimento de $1,6 bilhões em 2016 Agências Civis: $2 bilhões em 2016 Inteligência do Sistema Análise de Dados 5
AM: Etapas da Modelagem Construção Eng. de características Avaliação Otimização Utilização Predições Dados Históricos Eng. de Características Modelo Avaliação Otimização Novo Dado Utilização Predição 6
Como obter os dados? 1) Plataforma de DPI 7
PLATAFORMA DE DPI UNIDADE DE ACCESSO E PROCESSAMENTO DE DADOS AP 1 (DNS) Acel AP 2 (HTTP) Acel Dados não processados Interface de Rede (Ethernet) Dados não processados AP 3 (Radius) AP 4 (DHCP) AP 5 (SMTP) Acel Acel Acel + Firmware de Processamento de Rede AP 6 (POP3) AP 7 (SIP) AP 8 (TCP) Acel Acel Acel AP 9 (IP)... Acel AP n (Conteúdo) Acel Metadados Conteúdo filtrado Para a Unidade de Armazenamento 8
Como obter os dados? 1) Plataforma de DPI 2)?????? 9
Trabalho feito para Obtenção de Dados Banco de Malwares (50.000/mes) Who is executável hash ou executável Sandbox PCAP protocolos & comunicações JSON classificação composta NAS 24 Tbytes PD JSON classificação otimizada Sonayev ML algorithm 10
Hash do malware ou seu código executável AV 1 AV 2 AV 3 AV 4 AV N Classicação composta 11
Processamento de Dados 1a etapa NAS (25.000+ análises) Processamento paralelo (8 vcpus / 48 GB RAM) + + ( ) + + tshark tshark tshark tshark JSON protocolos & comunicações Controle processamento (sucesso, falha, pcap rejeitados) 12
Processamento de Dados 2a etapa ( ) JSON Extração de características e preparação dos dados para ML Controle de processamento (sucesso, falha, indicativos de qualidade do dado) 13
Agenda 1) Processamento e Integridade dos dados 2) Algoritmo de Seleção de Características 3) Seleção de modelo de Machine Learning Prototipação dos modelos de ML escolhidos KNN RNA (MLP) C4.5
1 - Integridade dos Dados: Motivações Falhas de conexão e energia Problema de falta de espaço no disco rígido Devido ao tamanho das análises e a quantidade de malwares, o espaço de cada máquina foi insuficiente. Solução: NAS (24 TB de armazenamento) Várias manipulações feitas nos arquivos de saída para realizar o armazenamento.
1 - Integridade dos Dados (cont.) Verificar o número de pacotes de resposta HTTP Re-análise de um pequeno conjunto de malwares para validação cruzada IP Origem / IP Destino Análise estatística relacionando o IP de destino e IP de origem.
2 - Seleção de Características 2014 IEEE Conference on Communications and Network Security.
2 - Seleção de Características 2014 IEEE International Conference on Computing, Networking and Communications (ICNC).
Características Utilizadas
2 - Algoritmo de Seleção de Características Matriz de covariância Correlação de Pearson Detectar/eliminar redundâncias (relações lineares) Algoritmo de força bruta direcionada para seleção de características: Divisão das características por grupos. Combinação dos diferentes grupos. Retira-se o pior grupo. - Força bruta para descobrir a melhor combinação de características do pior grupo. - Algoritmo é executado enquanto a acurácia do modelo testado aumentar.
3 - Seleção de modelo de Machine Learning Foram escolhidos 3 algoritmos de ML, de natureza distinta (modelos paramétricos e não paramétricos): KNN (K-Nearest Neighbors) Redes Neurais, modelo MLP (Multilayer Perceptron) C4.5 (algoritmo de Árvores de Decisão) Dentre estes algoritmos, serão testadas diversas implementações afim de obter a que melhor se encaixa no contexto do projeto. Métricas a serem analisadas: precisão da implementação em relação às outras, matriz de confusão (falsos positivos), velocidade de execução (performance).
Desafios 1) Plataforma de DPI 2) Orçamento limitado 3) Container fim de fevereiro 4) Internet fim de maio 5) Recomposição da equipe 23
Obrigado pela Atenção! 24
25