Trilha machine learning: Algoritmo de regressão logística

- janeiro 08, 2024

A regressão logística é um algoritmo de aprendizado de máquina utilizado para resolver problemas de classificação binária, ou seja, situações em que o resultado desejado pode ser categorizado em duas classes distintas, seu objetivo principal é prever a probabilidade de um evento ocorrer pertencendo a uma das duas classes. Ela também conhecida como função sigmoide, e transforma uma combinação linear das características do modelo em uma probabilidade entre 0 e 1. A função sigmoide é expressa pela fórmula:

$� (� = 1) = \frac{1}{1 + �^{- (�_{0} + �_{1} \cdot �_{1} + �_{2} \cdot �_{2} + \dots + �_{�} \cdot �_{�})}}$
Onde:

$� (� = 1)$ é a probabilidade de pertencer à classe positiva (1),

$�_{0}$ é o termo de interceptação,

$�_{1}, �_{2}, \dots, �_{�}$ são os coeficientes associados às características $�_{1}, �_{2}, \dots, �_{�}$ ,

e $�$ é a base do logaritmo natural.

O modelo de regressão logística é treinado ajustando os coeficientes $�_{0}, �_{1}, \dots, �_{�}$ para minimizar a diferença entre as probabilidades previstas e os rótulos reais dos dados de treinamento. Após o treinamento, é necessário definir um limiar de decisão. Se a probabilidade prevista for maior que o limiar, a instância é classificada como pertencente à classe positiva; caso contrário, é classificada como pertencente à classe negativa.

A regressão logística é frequentemente usada em problemas de classificação binária, como prever se um e-mail é spam ou não, se um paciente tem uma doença específica ou não, entre outros, ela é uma ferramenta versátil e amplamente utilizada, sendo eficaz em várias situações em que é necessário realizar a classificação binária com base em características observadas. Uma das desvantagens é a sensibilidade ao overfitting, e para evitar esse overfitting, pode-se aplicar técnicas de regularização, como a regularização L1 (LASSO) ou L2 (Ridge), durante o treinamento.

Vamos testar uma aplicação simples, crie o algoritmo:

O resultado:

O código utiliza a Regressão Logística para criar uma fronteira de decisão entre duas classes em um problema de classificação binária. Vamos falar sobre o resultado gerado...
Utilizamos o conjunto de dados Iris e dividimos em conjuntos de treino e teste, as duas primeiras características (sepal length e sepal width) são utilizadas para criar um problema de classificação binária. Para treinar o modelo de Regressão Logística utilizamos as características de treino e as classes correspondentes. O modelo treinado é avaliado quanto à sua acurácia, que é a porcentagem de previsões corretas em relação ao conjunto de teste, no caso desse exemplo tivemos 100% de acurácia.
Na visualização uma malha de pontos é criada para cobrir a área das características utilizadas., a função logística é aplicada a cada ponto da malha para gerar uma fronteira de decisão que pode ser visualizada através dos contornos no gráfico. Os pontos de treino e teste são plotados no gráfico, e os pontos de treino são marcados como "Treino - Classe 0", representando a classe 0 do problema binário. No nosso exemplo a região sombreada no gráfico representa a área onde o modelo atribuiria a classe 0, e a fronteira de decisão é a linha que separa as regiões onde o modelo prevê uma classe daquelas onde prevê a outra classe.
Essa visualização permite observar como o modelo de Regressão Logística divide o espaço de características para fazer previsões, no caso de um problema com mais de duas classes, cada fronteira de decisão seria visualizada entre uma classe e as demais.

Espero que tenham gostado! Até mais 😉

Pesquisar este blog

Portfólio Laisla Francisco

Trilha machine learning: Algoritmo de regressão logística

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Trilha estatística: Variância e desvio padrão

Resenha: Storytelling com dados - Cole Nussbaumer Knaflic