Trilha machine learning: Algoritmo de regressão logística



A regressão logística é um algoritmo de aprendizado de máquina utilizado para resolver problemas de classificação binária, ou seja, situações em que o resultado desejado pode ser categorizado em duas classes distintas, seu objetivo principal é prever a probabilidade de um evento ocorrer pertencendo a uma das duas classes. Ela também conhecida como função sigmoide, e transforma uma combinação linear das características do modelo em uma probabilidade entre 0 e 1. A função sigmoide é expressa pela fórmula:
  1. (=1)=11+(0+11+22++)

  2. Onde:
  3. (=1) é a probabilidade de pertencer à classe positiva (1),

    0 é o termo de interceptação,

    1,2,, são os coeficientes associados às características 1,2,,,

    e é a base do logaritmo natural.


  4. O modelo de regressão logística é treinado ajustando os coeficientes 0,1,, para minimizar a diferença entre as probabilidades previstas e os rótulos reais dos dados de treinamento. Após o treinamento, é necessário definir um limiar de decisão. Se a probabilidade prevista for maior que o limiar, a instância é classificada como pertencente à classe positiva; caso contrário, é classificada como pertencente à classe negativa.

A regressão logística é frequentemente usada em problemas de classificação binária, como prever se um e-mail é spam ou não, se um paciente tem uma doença específica ou não, entre outros, ela é uma ferramenta versátil e amplamente utilizada, sendo eficaz em várias situações em que é necessário realizar a classificação binária com base em características observadas. Uma das desvantagens é a sensibilidade ao overfitting, e para evitar esse overfitting, pode-se aplicar técnicas de regularização, como a regularização L1 (LASSO) ou L2 (Ridge), durante o treinamento.

Vamos testar uma aplicação simples, crie o algoritmo:







































O resultado:





























O código utiliza a Regressão Logística para criar uma fronteira de decisão entre duas classes em um problema de classificação binária. Vamos falar sobre o resultado gerado...
Utilizamos o conjunto de dados Iris e dividimos em conjuntos de treino e teste, as duas primeiras características (sepal length e sepal width) são utilizadas para criar um problema de classificação binária. Para treinar o modelo de Regressão Logística utilizamos as características de treino e as classes correspondentes. O modelo treinado é avaliado quanto à sua acurácia, que é a porcentagem de previsões corretas em relação ao conjunto de teste, no caso desse exemplo tivemos 100% de acurácia.
Na visualização uma malha de pontos é criada para cobrir a área das características utilizadas., a função logística é aplicada a cada ponto da malha para gerar uma fronteira de decisão que pode ser visualizada através dos contornos no gráfico. Os pontos de treino e teste são plotados no gráfico, e os pontos de treino são marcados como "Treino - Classe 0", representando a classe 0 do problema binário. No nosso exemplo a região sombreada no gráfico representa a área onde o modelo atribuiria a classe 0, e a fronteira de decisão é a linha que separa as regiões onde o modelo prevê uma classe daquelas onde prevê a outra classe.
Essa visualização permite observar como o modelo de Regressão Logística divide o espaço de características para fazer previsões, no caso de um problema com mais de duas classes, cada fronteira de decisão seria visualizada entre uma classe e as demais.


Espero que tenham gostado! Até mais 😉







Comentários

Postagens mais visitadas deste blog

Resenha: Storytelling com dados - Cole Nussbaumer Knaflic

Trilha estatística: Variância e desvio padrão

Trilha machine learning: Algoritmo de regressão linear