Trilha estatística: Variância e desvio padrão
O desvio padrão e a variância são medidas importantes que ajudam a entender a dispersão dos dados, quanto maior o desvio padrão ou a variância, mais dispersos estão os dados em torno da média, e vice-versa. Essas medidas são úteis para avaliar a consistência ou a variabilidade dos dados em um conjunto de observações
A variância é uma medida de dispersão que descreve o quão distantes os valores de um conjunto de dados estão da média. É calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto de dados. A fórmula para calcular a variância populacional é:
- Onde:
- é a variância populacional.
- é cada valor do conjunto de dados.
- é a média do conjunto de dados.
- é o número total de observações no conjunto de dados.
Exemplo:
Considere o conjunto de dados: 10, 15, 20, 25, 30.
Primeiro, calculamos a média:
.
Em seguida, calculamos as diferenças quadráticas entre cada valor e a média:
(10−20)2=100,
,
,
,
.
A soma desses valores é .
Finalmente, dividimos essa soma pelo número total de observações para obter a variância:
.
Já o desvio padrão é uma medida de dispersão que indica a dispersão dos dados em torno da média, é a raiz quadrada da variância.O desvio padrão é frequentemente preferido porque está na mesma unidade que os dados originais, facilitando a interpretação.
Exemplo (continuando o exemplo anterior):
A variância calculada foi
.
Portanto, o desvio padrão é
.
Agora vamos dar uma olhada em como isso fica usando Python!
Sem usar bibliotecas:
Agora usando a biblioteca Numpy:
Comentários
Postar um comentário