Trilha machine learning: Algoritmo de regressão logística
A regressão logística é um algoritmo de aprendizado de máquina utilizado para resolver problemas de classificação binária, ou seja, situações em que o resultado desejado pode ser categorizado em duas classes distintas, seu objetivo principal é prever a probabilidade de um evento ocorrer pertencendo a uma das duas classes. Ela também conhecida como função sigmoide, e transforma uma combinação linear das características do modelo em uma probabilidade entre 0 e 1. A função sigmoide é expressa pela fórmula:
- Onde:
O modelo de regressão logística é treinado ajustando os coeficientes para minimizar a diferença entre as probabilidades previstas e os rótulos reais dos dados de treinamento. Após o treinamento, é necessário definir um limiar de decisão. Se a probabilidade prevista for maior que o limiar, a instância é classificada como pertencente à classe positiva; caso contrário, é classificada como pertencente à classe negativa.
é a probabilidade de pertencer à classe positiva (1),
é o termo de interceptação,
são os coeficientes associados às características ,
e é a base do logaritmo natural.
Utilizamos o conjunto de dados Iris e dividimos em conjuntos de treino e teste, as duas primeiras características (sepal length e sepal width) são utilizadas para criar um problema de classificação binária. Para treinar o modelo de Regressão Logística utilizamos as características de treino e as classes correspondentes. O modelo treinado é avaliado quanto à sua acurácia, que é a porcentagem de previsões corretas em relação ao conjunto de teste, no caso desse exemplo tivemos 100% de acurácia.
Na visualização uma malha de pontos é criada para cobrir a área das características utilizadas., a função logística é aplicada a cada ponto da malha para gerar uma fronteira de decisão que pode ser visualizada através dos contornos no gráfico. Os pontos de treino e teste são plotados no gráfico, e os pontos de treino são marcados como "Treino - Classe 0", representando a classe 0 do problema binário. No nosso exemplo a região sombreada no gráfico representa a área onde o modelo atribuiria a classe 0, e a fronteira de decisão é a linha que separa as regiões onde o modelo prevê uma classe daquelas onde prevê a outra classe.
Essa visualização permite observar como o modelo de Regressão Logística divide o espaço de características para fazer previsões, no caso de um problema com mais de duas classes, cada fronteira de decisão seria visualizada entre uma classe e as demais.
Espero que tenham gostado! Até mais 😉
Comentários
Postar um comentário