Trilha estatística: Média, moda e mediana
Média, moda e mediana, são medidas de tendência central, úteis para resumir e compreender a distribuição dos dados, vamos ver com mais detalhes, exemplos e uma prática bem legal em Python, como funciona cada uma delas:
Média:
A média é uma medida sensível a valores extremos, que representa o valor médio de um conjunto de dados. É calculada somando todos os valores e dividindo pelo número total de observações.
Exemplo:
- Considere o conjunto de dados: 10, 15, 20, 25, 30.
- Para calcular a média, adicionamos todos os valores: 10 + 15 + 20 + 25 + 30 = 100.
- Em seguida, dividimos pelo número total de observações (5): 100 / 5 = 20.
- Portanto, a média é 20 para este conjunto de dados.
Mediana:
A mediana é o valor que divide o conjunto de dados em duas partes iguais quando os dados estão ordenados em ordem crescente ou decrescente. Se houver um número ímpar de observações, a mediana é o valor do meio. Se houver um número par de observações, a mediana é a média dos dois valores do meio.
Exemplo 1:
- Considere o conjunto de dados: 10, 15, 20, 25, 30.
- Como há um número ímpar de observações, a mediana é o valor do meio, que é 20.
Exemplo 2:
- Considere o conjunto de dados: 10, 15, 20, 25, 30, 35.
- Agora, há um número par de observações, então a mediana é a média dos dois valores do meio: (20 + 25) / 2 = 22.5.
Moda:
A moda é o valor que aparece com mais frequência em um conjunto de dados. Pode haver uma moda (unimodal), duas modas (bimodal) ou mais.
Exemplo 1:
- Considere o conjunto de dados: 10, 15, 15, 20, 25, 25, 25, 30.
- Aqui, a moda é 25, pois é o valor que ocorre com mais frequência.
Exemplo 2:
- Considere o conjunto de dados: 10, 10, 15, 15, 20, 20, 25, 25.
- Neste caso, há duas modas: 10 e 15, pois ambos os valores ocorrem com a mesma frequência.
Vamos testar!
Primeiro vamos ver como fazer sem usar os recursos das bibliotecas do Pyhton, vamos fazer "na mão" mesmo:
Agora sim, vamos conhecer os recursos que a biblioteca statistics oferece, vou deixar a documentação dela aqui abaixo também caso queira saber mais.
Vamos entender o que fizemos aqui:
- Carregar o conjunto de dados Iris: O código começa carregando o conjunto de dados Iris, nativo do Python e que contém informações sobre as características de diferentes tipos de flores Íris.
- Calcular a média, mediana e moda: O código calcula a média, mediana e moda do comprimento da sépala das Iris usando funções fornecidas pela biblioteca statistics.
- Plotar um histograma: O código cria um histograma do comprimento da sépala das plantas Iris usando a biblioteca matplotlib, o histograma mostra como os dados estão distribuídos ao longo de diferentes intervalos de comprimento da sépala.
- Adicionar linhas para representar a média, mediana e moda: O código adiciona linhas verticais pontilhadas no histograma para representar a média, mediana e moda, isso nos ajuda a visualizar onde esses valores estão localizados em relação à distribuição dos dados.
- Imprimir os resultados: Por fim, o resultado do código é um histograma que mostra a distribuição dos comprimentos das sépalas das plantas Iris, juntamente com linhas verticais pontilhadas que representam a média, mediana e moda. Os valores numéricos da média, mediana e moda são impressos abaixo do histograma isso nos ajuda a entender melhor como os dados estão distribuídos e onde estão localizadas as medidas de tendência central.
Espero que tenha sido útil! Até mais 😉
Comentários
Postar um comentário