Análise de dados de seguro saúde

A direção de uma seguradora levantou as seguintes questões para serem respondidas com os dados coletados dos seus usuários:
  1. Qual gasto total da operadora?
  2. Qual idade média dos usuários?
  3. Qual gasto médio por região?
  4. Qual faixa etária possui maior gasto com seguro saúde por região?
  5. Crianças tem gasto maior do que adultos?
  6. Qual proporção de crianças por região?
  7. O aumento da idade influencia no IMC?
  8. Quem tem maior gasto, homens ou mulheres?
  9. Se o usuário for mulher, tem IMC abaixo ou acima da média?
  10. Se for homem, com mais de 50 anos, da região sudeste, o gasto é maior ou menor do que o gasto médio por região?
Após a análise do banco, o seguinte relatório foi usado para responder as perguntas da direção:


Para responder as perguntas, foi analisado o banco de dados que era composto pelas seguintes colunas:


Desse banco foi descartada a coluna "crianca", pois ela era composta por valores de 0 a 5, que não faziam sentido, não poderia ser um indicativo de ser ou não criança, já que os planos tem idade mínima de 18 anos e nem poderia ser o número de crianças de uma família, já que os dados do banco são individuais. Foram criadas as colunas de grupos "Faixa_etaria" e "Meia_Idade" que categorizam e separam as idades para utilizá-las nos gráficos e filtro.

Abaixo do título temos um grupo de filtros que podem ser utilizados para responder algumas questões, da esquerda para direita temos filtro de idade, o filtro meia idade que classifica os usuários acima ou abaixo de 50 anos, o filtro de sexo e por fim o de região. Para os indicadores que respondem as questões:
  1. O primeiro indicador do tipo "cartão", responde a primeira pergunta da direção sobre o gasto total da seguradora;
  2. O indicador abaixo, também do tipo "cartão", responde a segunda pergunta.
  3. À direita, outro indicador do tipo "cartão", mostra a média total do IMC dos usuários, acompanhado da  tabela abaixo dele que contém a média do IMC por sexo, respondem a pergunta nº 9.
  4. O gráfico de barras, mostra a média gasta por região, respondendo a pergunta de nº 3.
  5. O gráfico de rosca, mostra os valores gastos por sexo, respondendo a pergunta de nº 8.
  6. O gráfico de dispersão faz uma análise IMC x Idade (Pergunta 7) e comprova, de acordo com os dados, que o IMC aumenta conforme a idade também aumenta.
  7. O gráfico de barras agrupadas, mostra o valor do seguro pelas faixas etárias (utilizando o grupo criado) e também por região, respondendo a pergunta nº 4.
  8. Por fim temos uma tabela que contém a média de valor do seguro por região, usamos para responder a pergunta nº 10 junto ao filtro meia idade (selecionar >50) e o filtro da região (selecionar Sudeste)
  9. Devido a não regularidade dos dados referente às crianças não foram respondidas as perguntas 5 e 6.
Esse relatório foi produzido durante o curso "Microsoft Power BI para data science versão 2.0" do Data Science Academy.

Comentários

Postagens mais visitadas deste blog

Resenha: Storytelling com dados - Cole Nussbaumer Knaflic

Trilha estatística: Variância e desvio padrão

Trilha machine learning: Algoritmo de regressão linear