Trilha estatística: Variância e desvio padrão

O desvio padrão e a variância são medidas importantes que ajudam a entender a dispersão dos dados, quanto maior o desvio padrão ou a variância, mais dispersos estão os dados em torno da média, e vice-versa. Essas medidas são úteis para avaliar a consistência ou a variabilidade dos dados em um conjunto de observações

A variância é uma medida de dispersão que descreve o quão distantes os valores de um conjunto de dados estão da média. É calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto de dados. A fórmula para calcular a variância populacional é:


  • Onde:
    • 2 é a variância populacional.
    • é cada valor do conjunto de dados.
    • é a média do conjunto de dados.
    • é o número total de observações no conjunto de dados.


Exemplo: Considere o conjunto de dados: 10, 15, 20, 25, 30.

Primeiro, calculamos a média:


=10+15+20+25+305=20.

Em seguida, calculamos as diferenças quadráticas entre cada valor e a média: (1020)2=100

(1020)2=100,

(1520)2=25,

(2020)2=0,

(2520)2=25,

(3020)2=100.

A soma desses valores é 100+25+0+25+100=250.

Finalmente, dividimos essa soma pelo número total de observações para obter a variância:


2=2505=50.

Já o desvio padrão é uma medida de dispersão que indica a dispersão dos dados em torno da média, é a raiz quadrada da variância.O desvio padrão é frequentemente preferido porque está na mesma unidade que os dados originais, facilitando a interpretação.


Exemplo (continuando o exemplo anterior):

A variância calculada foi


2=50.

Portanto, o desvio padrão é


=507.07.

Agora vamos dar uma olhada em como isso fica usando Python!

Sem usar bibliotecas:


Agora usando a biblioteca Numpy:



Espero que tenha sido útil! Até mais! 😄






Comentários

Postagens mais visitadas deste blog

Resenha: Storytelling com dados - Cole Nussbaumer Knaflic

Trilha machine learning: Algoritmo de regressão linear