Sistema criado pelo departamento de ciência da computação da UFMG que consegue medir, monitorar e caracterizar o tráfego de spams na internet vai ajudar a combater surgimento de novas formas de invasão
Marco Túlio Ribeiro, Pedro Henrique Guerra com os professores Dorgival Guedes, Wagner Meira Jr. e o colega Douglas Pires: árvore projetada é base de ferramenta criada pelo grupo
"Estamos colocando a ratoeira para andar, agora ela vai atrás do rato." Assim o professor Wagner Meira Jr., do departamento de ciência da computação da UFMG, define o Spam Miner. O sistema foi criado a partir de dados coletados pelo Comitê Gestor da Internet (CGI) para tentar encerrar o eterno jogo de gato e rato em que especialistas em segurança na web costumavam quebrar a cabeça para conter os spams. Os invasores espertalhões já são responsáveis por sete a cada 10 e-mails que cruzam a rede mundial de computadores. Dados da IronPort, empresa de segurança na internet, indicam que 120 bilhões de spams são enviados por dia em todo o mundo.
Problemas como identificar os spams, determinar as origens e entender como a infraestrutura das redes é abusada pelos spammers, para que se mantenham no anonimato, ajudam a tornar ainda mais complexa a tarefa de conter essa enxurrada. Sem falar na agilidade das mutações e maquiagens implementadas pelos criadores das tais mensagens, de acordo com o professor.
"Quando identificávamos um spam e suas estratégias, o spammer já estava pronto para criar alguma alteração, por isso nossa ideia foi detectar as tendências que vão surgindo. É como se definíssemos um princípio ativo da disseminação para, a partir disso, desenvolver vacinas mais eficazes. O sistema é capaz de medir, monitorar e caracterizar o tráfego de spams na internet", explica Meira Jr.
Nesta fase inicial, a equipe formada pelos professores Wagner e Dorgival Guedes e os estudantes Marco Tulio Ribeiro, Pedro Henrique Calais Guerra e Douglas Pires, se debruçou sobre 500 milhões de mensagens. Esse volume de dados foi coletado durante 15 meses e cedido pela infraestrutura de coleta do Núcleo de Informação e Coordenação da Internet no Brasil (Nic.br), ligado ao CGI.
Para "capturar" as mensagens, o comitê usa estratégia já conhecida dos caça-spams: os honeypots. Computadores fragilizados funcionam como potes de mel para atrair ursos travessos. O spammer invade um honeypot, na doce ilusão de que se trata de uma vítima desprotegida qualquer. A mensagem que vai parar ali, porém, vira estatística e arma contra o próprio emissor, já que ajuda a originar estudos como o realizado na UFMG.
Raio X do spammer No processo do Spam Miner, o passo seguinte foi extrair características relevantes das mensagens para identificar diferentes campanhas de spams - conjunto de mensagens disparado pelo mesmo emissor com propósitos e características similares. "São pistas como idioma, detalhes do layout, tipo da mensagem e assunto, que ajudam a definir esses traços em comum, para identificarmos as campanhas", exemplifica Meira Jr.
É exatamente aí que entram as técnicas de mineração de dados. "A princípio não sabemos qual característica detectada é a mais importante. Contamos então com a árvore de spams", diz Meira Jr., citando o diagrama que acompanha a evolução das estratégias usadas pelos spammers para implementar pequenas variações e continuar se disseminando na rede, escapando dos antispams.
A árvore de spams, projetada sobre a equipe de pesquisadores na foto que ilustra esta página, mostra como as campanhas de mensagens indesejadas se desenvolvem a partir dos dados relativos às suas características comuns. Cada cor representa um elemento que ajuda a identificar as campanhas (texto, assunto, imagem etc). Normalmente, cada ramo da árvore invertida é uma campanha.
À medida que a campanha se dissemina pela rede, forma-se um padrão de características invariantes e ofuscadas. As variações explodem nos leques coloridos que definem esse padrão de técnicas com o objetivo de burlar as ações antispam. É nesse momento que o spammer insere essas pequenas alterações, para driblar os filtros de detecção.
Radiografar essas complexas estratégias foi o primeiro passo do projeto, que lembra aquele velho mote de guerra: "Conheça o inimigo para combatê-lo". Com um oponente assim tão escorregadio, só mesmo análise minuciosa dos padrões comportamentais dos danados, em larga escala, para conseguir um resultado eficaz. "Como os spamers têm técnicas diferentes que mudam com o tempo, temos que estar preparados com estratégias igualmente flexíveis", define o professor.
Daí para a frente, as mensagens captadas com os mecanismos do CGI devem passar pelo Spam Miner, usado como subsídio de registros de incidentes, uma espécie de sala da controle. Aliada à análise quantitativa, com a tradicional medição das incidências de spam, o panorama qualitativo, com a definição de como a disseminação evolui na web, vai ajudar a perceber quais são as novas campanhas de spam que surgem a todo momento.
Para o futuro, o projeto ainda prevê o aperfeiçoamento da análise de comportamento dos spammers na rede, além da aplicação da técnica de identificação de campanhas a outras formas de spam (webspam, blogspam, opiniospam). O Spam Miner também vai, a partir da análise distanciada, detectar padrões evolutivos, temporais, para entender mais profundamente como funciona o fenômeno.
|