Trilha estatística: Média, moda e mediana

Média, moda e mediana, são medidas de tendência central, úteis para resumir e compreender a distribuição dos dados, vamos ver com mais detalhes, exemplos e uma prática bem legal em Python, como funciona cada uma delas:

Média:
    A média é uma medida sensível a valores extremos, que representa o valor médio de um conjunto de dados. É calculada somando todos os valores e dividindo pelo número total de observações.
Exemplo:
  1.    Considere o conjunto de dados: 10, 15, 20, 25, 30.
  2.    Para calcular a média, adicionamos todos os valores: 10 + 15 + 20 + 25 + 30 = 100.
  3.    Em seguida, dividimos pelo número total de observações (5): 100 / 5 = 20.
  4.    Portanto, a média é 20 para este conjunto de dados.

Mediana: 
    A mediana é o valor que divide o conjunto de dados em duas partes iguais quando os dados estão ordenados em ordem crescente ou decrescente. Se houver um número ímpar de observações, a mediana é o valor do meio. Se houver um número par de observações, a mediana é a média dos dois valores do meio.
Exemplo 1:
  1.    Considere o conjunto de dados: 10, 15, 20, 25, 30.
  2.    Como há um número ímpar de observações, a mediana é o valor do meio, que é 20.
Exemplo 2:
  1.    Considere o conjunto de dados: 10, 15, 20, 25, 30, 35.
  2.    Agora, há um número par de observações, então a mediana é a média dos dois valores do meio: (20 + 25) / 2 = 22.5.

Moda:
    A moda é o valor que aparece com mais frequência em um conjunto de dados. Pode haver uma moda (unimodal), duas modas (bimodal) ou mais.
Exemplo 1:
  1.    Considere o conjunto de dados: 10, 15, 15, 20, 25, 25, 25, 30.
  2.    Aqui, a moda é 25, pois é o valor que ocorre com mais frequência.
Exemplo 2:
  1.    Considere o conjunto de dados: 10, 10, 15, 15, 20, 20, 25, 25.
  2.    Neste caso, há duas modas: 10 e 15, pois ambos os valores ocorrem com a mesma frequência.

Vamos testar!
Primeiro vamos ver como fazer sem usar os recursos das bibliotecas do Pyhton, vamos fazer "na mão" mesmo:
























Agora sim, vamos conhecer os recursos que a biblioteca statistics oferece, vou deixar a documentação dela aqui abaixo também caso queira saber mais.





Vamos entender o que fizemos aqui:

  1. Carregar o conjunto de dados Iris: O código começa carregando o conjunto de dados Iris, nativo do Python e que contém informações sobre as características de diferentes tipos de flores Íris.
  2. Calcular a média, mediana e moda: O código calcula a média, mediana e moda do comprimento da sépala das Iris usando funções fornecidas pela biblioteca statistics. 
  3. Plotar um histograma: O código cria um histograma do comprimento da sépala das plantas Iris usando a biblioteca matplotlib, o histograma mostra como os dados estão distribuídos ao longo de diferentes intervalos de comprimento da sépala. 
  4. Adicionar linhas para representar a média, mediana e moda: O código adiciona linhas verticais pontilhadas no histograma para representar a média, mediana e moda, isso nos ajuda a visualizar onde esses valores estão localizados em relação à distribuição dos dados.
  5. Imprimir os resultados: Por fim, o resultado do código é um histograma que mostra a distribuição dos comprimentos das sépalas das plantas Iris, juntamente com linhas verticais pontilhadas que representam a média, mediana e moda. Os valores numéricos da média, mediana e moda são impressos abaixo do histograma isso nos ajuda a entender melhor como os dados estão distribuídos e onde estão localizadas as medidas de tendência central.

Espero que tenha sido útil! Até mais 😉




















Comentários

Postagens mais visitadas deste blog

Resenha: Storytelling com dados - Cole Nussbaumer Knaflic

Trilha estatística: Variância e desvio padrão

Trilha machine learning: Algoritmo de regressão linear