NSI 800 – Introdução aos Métodos de Análises de Dados Utilizando o Software Estatístico R

Carga horária: 30 horas

 

  1. Motivação

As ferramentas de análise de dados têm se tornado cada vez mais importantes no dia-a-dia das empresas. Técnicas antes dominadas por um grupo restrito de profissionais estão se tornando mais acessíveis e mais utilizadas por analistas em diversos setores de atividade econômica. Instituições financeiras, fundos de pensão, seguradoras, empresas de varejo, telecomunicações, energia e logística, são alguns dos setores que vêm utilizando crescentemente técnicas modernas de analytics. Nesse cenário, o curso proposto visa à introdução das principais técnicas modernas de análises de dados, utilizando o software R.

O R é um software gratuito para análises estatísticas, econométricas e matemáticas. Essa ferramenta foi desenvolvida com base em uma linguagem anterior denominada S. Para executar os programas em R, utilizaremos o RStudio, que é uma IDE (Integrated Development Environment) tradicional do R, ou as ferramentas da Microsoft R Tools com o Visual Studio 2015 Community Edition (livre para download). Por ser um software livre, há uma rede significativa de pesquisadores desenvolvendo rotinas em R, o que torna essa ferramenta em constante evolução. Pesquisas recentes têm mostrado que o R é de longe a linguagem mais utilizada para análises de dados no mundo, e essa tendência tem crescido nos últimos anos. Algumas estimativas indicam que mais de 60% dos profissionais de analytics utilizam o R. A Figura 1 abaixo apresenta alguns gráficos utilizando diversos pacotes do R.

 

Figura 1. Exemplos de gráficos feitos com R

 

 

  1. Objetivo

O objetivo deste curso é apresentar aos alunos os conceitos fundamentais, tradicionalmente utilizados, em análise estatística aplicada à avaliação de políticas públicas. Além disso, será introduzido o software estatístico livre R; essa será a ferramenta básica para o tratamento e análise de dados no curso. Entre as vantagens na utilização do R, incluem-se: reprodutibilidade das análises; software livre, não havendo necessidade de compra de licença; contém uma grande variedade de recursos analíticos e gráficos; é o software mais utilizado no mundo para análise de dados. Para melhor visualização de alguns dos conceitos para análises de dados, quando necessário, será utilizado também o software Excel.

  1. Público Alvo

Profissionais do setor público e privado, com formação superior em diferentes áreas do conhecimento, e que necessitam em sua capacitação entrar em contato com técnicas mais sofisticadas de análise, estimação e modelagem econômica.

  1. Conhecimentos Prévios

Espera-se que os alunos tenham conhecimento básico de planilhas Excel.

  1. Metodologia

Para a sequência de ferramentas estatísticas em R, o treinamento será ministrado em três semanas cada uma de 06 horas (aulas as quartas e quintas) com níveis gradativos de complexidade. Ao final de cada semana, os alunos terão visto um conjunto de diferentes ferramentas de análise utilizando o R. O treinamento  será todo ministrado utilizando o programa R e a interface RStudio. O Professor Alexandre Ywata participará de uma palestra via skipe para falar a aplicação/importância da linguagem R da Análise de Dados no mercado de trabalho.

      6Formato do Curso

O curso será ministrado em encontros semanais de 3 horas cada, as quartas e sextas, no turno da noite, além de dois sábados.  As aulas irão mesclar conceitos teóricos com aplicações práticas utilizando os softwares R e Excel.

  1. Ementa

Tópicos que serão abordados na primeira etapa com o professor Thiago Castro:

  • Uma breve descrição do que é a linguagem R, como funciona, onde é utilizada e o que vamos aprender neste curso.
  • Instalação: Demonstração de como baixar o R e RStudio
  • Tipos de dados e estruturas no R: Introdução aos tipos de dados e estruturas da linguagem R.
  • Lidando com valores incompletos: Como lidar com valores inexistentes (NA) no R.
  • Funções básicas do R:Funções básicas como média e desvio padrão no R.
  • Pacotes: Tutorial de como instalar e carregar pacotes/extensões no R.
  • Importando dados: Como importar dados de arquivos .csv para o RStudio.
  • Manipulando dados: Manipulação de dataframes
  • Gráficos: Utilização básica de gráficos.
  • Revisão, análise de conjunto de dados e exercícios: Revisão das principais funções aprendidas durante o curso, aplicando-as em um conjunto de dados do próprio R.

Tópicos que serão abordados na segunda etapa, aos sábados, com o professor Geraldo Góes e participação do professor Alexandre Ywata:

  • Introdução à análise exploratória de dados
  • Medidas de centralidade, dispersão, assimetria e curtose
  • Histogramas
  • Gráficos de dispersão
  • Gráficos e análise exploratória
  • Covariância e correlação
  • Introdução a variáveis aleatórias