Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Agenda • Introdução • Justificativa • Objetivo • Detecção de Spam • Técnicas de Inteligência • Comparação de Resultados • Conclusão

Introdução • O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico • causa um grande desperdício de recursos • Custo: consome tempo de processamento e espaço de armazenamento • Fraude: facilita o uso de fraude • Destituição do e-mail normal

Justificativa • Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários • Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas. • Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários.

Justificativa • Uma solução é a utilização de filtro de spam • Automáticos • Semi-automáticos • Amplamente utilizados por ISP´s(provedores) • O problema em utilizar esses filtros é que não se consegue obter 100% de precisão na taxa de detecção de spam • Com isso vários métodos têm sido propostos para a implementação de filtros de spam

Justificativa • O maior interesse tem sido no uso de técnicas de aprendizado de máquina. • Naive Bayes • Árvores de Decisão • Redes Neurais • Sistemas Nebulosos (Fuzzy) • Support Vector Machine – SVM • Sistemas Imunológicos Artificiais

Justificativa • Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho. • Precisava-se comparar técnicas para definir qual tem o melhor desempenho

Objetivo • O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP.

Detecção de Spam - Fatores • Fatores que contribuem para envio de spam • Facilidade no envio de e-mail: alguns programas permitem enviar centenas de mensagens de e-mail e adquirir, milhares de contas válidas • Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente

Detecção de Spam - Técnicas • Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte • Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear • Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes

Detecção de Spam - Filtros • Definidos pelos usuários: permitem a criação de regras pelos usuários • Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não • Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail. • E o problema do image spam?

Técnicas de Inteligência • Redes Neurais • As Redes Neurais além fornecem um caminho mais fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam.

Técnicas de Inteligência • Redes Neurais • A propriedade mais importante das redes neurais é a habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento. • Aprendizado supervisionado, não supervisionado e híbrido

Técnicas de Inteligência • Neuro-Fuzzy • Fuzzy: (sistema de lógica nebulosa) é uma generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade. • Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados. • A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy

Resultados • Foram realizadas comparações com diferentes algoritmos: • Neuro-Fuzzy com taxa ótima de aprendizado • Redes Neurais utilizando Perceptron • Redes Neurais utilizando MLP. • A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab.

Resultados • Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine • Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total). • Foram processados utilizando a base de dados completa e • Com a mesma configuração, após a seleção dos atributos de maior relevância

Resultados • Os resultados foram analisados de acordo com: • os valores das taxas de acertos; • falsos positivos; e • falsos negativos.

Resultados • Neuro-Fuzzy • O treinamento Neuro-Fuzzy após a aplicação dos coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência.

Neuro-Fuzzy (Sem correlação)

Neuro-Fuzzy (com correlação)

Neuro-Fuzzy (com X sem correlação)

Resultados • Perceptron Simples • Para esta técnica foram feitos dois experimentos • Também se considerou a base completa e a base reduzida de acordo com a análise de correlação • Observou-se a diminuição do tempo de treinamento em função da diminuição do número de neurônios de entrada da rede

Perceptron Simples(sem correlação)

Perceptron Simples(com correlação)

Perceptron (com X sem correlação)

Resultados • MPL • A observação dos resultados obtidos pelo treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%.

MPL (sem correlação)

MPL (com correlação)

MPL (com X sem correlação)

Análise Comparativa

Conclusão • Dificuldade com a implementação dos algoritmos propostos • Descoberta do comportamento destes algoritmos • Várias execuções dos algoritmos, para diferentes definições dos parâmetros • Foram executados no mínimo seis vezes • O trabalho foi facilitado pelas implementações de redes neurais do Matlab

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam?

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam