quinta-feira, 20 de novembro de 2014

Big Data e Segurança em TI: o Terceiro “V” (Variedade)

Participei de um evento muito bom sobre Segurança em TI (http://www.securityleaders.com.br/forum/portoalegre/home.html). Especificamente participei do painel sobre Big Data e Analytics. Como não pude expor todas as minha ideias, já que éramos 6 painelistas mais a jornalista Graça como mediadora, resolvi escrever este post.
Big Data se caracteriza por 3 Vs: volume, velocidade e variedade de dados.
Quero falar especificamente sobre o 3o V (variedade de dados) aplicado a segurança de TI.
Normalmente os sistemas de segurança utilizam o que chamamos de “dados estruturados”. Os logs de acessos e eventos ocorridos em sistemas e redes de comunicação de dados contêm dados estruturados, ou seja, que podem ser armazenados em tabelas ou planilhas e assim podem ser facilmente interpretados. O maior desafio, entretanto, são os dados não estruturados. Dados em formatos não estruturados incluem imagens, sons e textos. Diz-se que 80% dos dados de uma empresa estão em formatos não estruturados.
Pense nas gravações (imagens e sons) que as empresas capturam e armazenam com suas câmeras de segurança. Não há ainda tecnologias para tratamento deste tipo de dados. Há pesquisas, e entre as empresas envolvidas está o Google tentando tratar imagens para o Google Imagens e sons para o Youtube. Já é possível, através de tecnologias de reconhecimento de fala, transcrever um áudio para texto. Mas isto ainda está sujeito a muitos erros e enganos. Uma empresa que atua nesta área é a Conexum Sistemas Computacionais Inteligentes (http://www.conexum.com.br/).
É também possível reconhecer movimentos em vídeos, reconhecer que há pessoas, rostos (e até sorrisos) em fotos, e também sabe-se que é possível reconhecer pessoas específicas em imagens (o Facebook permite marcar amigos). Mas o conteúdo de uma imagem ou vídeo, ou seja, o que exatamente há neles, ainda precisa ser decifrado.
E os textos ? Bom, análise de textos (por exemplo, através de text mining) é importante para Segurança de TI porque a empresa pode tentar descobrir estratégias de ataque que estão sendo difundidas através de fóruns, blogs, twitter, messengers, etc.
Outro caso interessante é pensar em ataques internos. Normalmente, pensamos em pessoas mal intencionadas que de fora da empresa planejam suas ações corruptas. Mas e se o inimigo está dentro da empresa, se é um funcionário ou até mesmo diretor ?
Certa vez participei de um projeto onde era necessário analisar e-mails que trafegavam pela empresa, porque havia suspeita de funcionários enviando informações para fora da empresa e planejando fraudes. E até mesmo se devia analisar dados históricos porque havia suspeita de que fraudes já haviam ocorrido.
Uma técnica utilizada neste caso foi analisar o vocabulário. Todos sabem que traficantes utilizam gírias próprias. Se alguém planeja uma ação ilegal e vai se comunicar com outras pessoas, certamente esta pessoa irá também utilizar jargões próprios. Nosso objetivo era identificar conversas suspeitas (até mesmo porque não se poderia analisar todos os e-mails manualmente e as técnicas automáticas ainda não são tão inteligentes para levantar suspeitas). O vocabulário suspeito é aquele que difere do contexto da empresa. Mas palavras que forem utilizadas uma ou duas vezes talvez não sejam interessantes, porque constituem um caso aleatório. Então, o interessante estava em repetições mas em volumes intermediários. Ou seja, não as palavras mais comuns, nem as mais raras.

Bom, este post é apenas uma dica de como a análise de dados não estruturados pode ajudar na segurança de TI.  

2 comentários:

Anônimo disse...

E justo sobre o que eu estava falando (análise automática de conteúdo de imagens) e recebo este post:
http://cs.stanford.edu/people/karpathy/deepimagesent/

Luciane Sangiovo disse...

Muito interessante professor.