Participei de um evento muito bom sobre
Segurança em TI
(http://www.securityleaders.com.br/forum/portoalegre/home.html).
Especificamente participei do painel sobre Big Data e Analytics. Como
não pude expor todas as minha ideias, já que éramos 6 painelistas
mais a jornalista Graça como mediadora, resolvi escrever este post.
Big Data se caracteriza por 3 Vs:
volume, velocidade e variedade de dados.
Quero falar especificamente sobre o 3o
V (variedade de dados) aplicado a segurança de TI.
Normalmente os sistemas de segurança
utilizam o que chamamos de “dados estruturados”. Os logs de
acessos e eventos ocorridos em sistemas e redes de comunicação de
dados contêm dados estruturados, ou seja, que podem ser armazenados
em tabelas ou planilhas e assim podem ser facilmente interpretados. O
maior desafio, entretanto, são os dados não estruturados. Dados em
formatos não estruturados incluem imagens, sons e textos. Diz-se que
80% dos dados de uma empresa estão em formatos não estruturados.
Pense nas gravações (imagens e sons)
que as empresas capturam e armazenam com suas câmeras de segurança.
Não há ainda tecnologias para tratamento deste tipo de dados. Há
pesquisas, e entre as empresas envolvidas está o Google tentando
tratar imagens para o Google Imagens e sons para o Youtube. Já é
possível, através de tecnologias de reconhecimento de fala,
transcrever um áudio para texto. Mas isto ainda está sujeito a
muitos erros e enganos. Uma empresa que atua nesta área é a Conexum
Sistemas Computacionais Inteligentes (http://www.conexum.com.br/).
É também possível reconhecer
movimentos em vídeos, reconhecer que há pessoas, rostos (e até
sorrisos) em fotos, e também sabe-se que é possível reconhecer
pessoas específicas em imagens (o Facebook permite marcar amigos).
Mas o conteúdo de uma imagem ou vídeo, ou seja, o que exatamente há
neles, ainda precisa ser decifrado.
E os textos ? Bom, análise de textos
(por exemplo, através de text mining) é importante para Segurança
de TI porque a empresa pode tentar descobrir estratégias de ataque
que estão sendo difundidas através de fóruns, blogs, twitter,
messengers, etc.
Outro caso interessante é pensar em
ataques internos. Normalmente, pensamos em pessoas mal intencionadas
que de fora da empresa planejam suas ações corruptas. Mas e se o
inimigo está dentro da empresa, se é um funcionário ou até mesmo
diretor ?
Certa vez participei de um projeto onde
era necessário analisar e-mails que trafegavam pela empresa, porque
havia suspeita de funcionários enviando informações para fora da
empresa e planejando fraudes. E até mesmo se devia analisar dados
históricos porque havia suspeita de que fraudes já haviam ocorrido.
Uma técnica utilizada neste caso foi
analisar o vocabulário. Todos sabem que traficantes utilizam gírias
próprias. Se alguém planeja uma ação ilegal e vai se comunicar
com outras pessoas, certamente esta pessoa irá também utilizar
jargões próprios. Nosso objetivo era identificar conversas
suspeitas (até mesmo porque não se poderia analisar todos os
e-mails manualmente e as técnicas automáticas ainda não são tão
inteligentes para levantar suspeitas). O vocabulário suspeito é
aquele que difere do contexto da empresa. Mas palavras que forem
utilizadas uma ou duas vezes talvez não sejam interessantes, porque
constituem um caso aleatório. Então, o interessante estava em
repetições mas em volumes intermediários. Ou seja, não as
palavras mais comuns, nem as mais raras.
Bom, este post é apenas uma dica de
como a análise de dados não estruturados pode ajudar na segurança
de TI.
2 comentários:
E justo sobre o que eu estava falando (análise automática de conteúdo de imagens) e recebo este post:
http://cs.stanford.edu/people/karpathy/deepimagesent/
Muito interessante professor.
Postar um comentário