-
Notifications
You must be signed in to change notification settings - Fork 7
/
Copy path07-manipulacao.Rmd
29 lines (18 loc) · 2 KB
/
07-manipulacao.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
# Manipulação {#manipulacao}
Esta seção trata do tema *manipulação de dados*. Trata-se de uma tarefa dolorosa e demorada, tomando muitas vezes a maior parte do tempo de uma análise de dados. Apesar de negligenciada pela Estatística, essa etapa é essencial para o sucesso da análise.
> *The fact that data science exists as a field is a colossal failure of statistics. To me, what I do is what statistics is all about. It is gaining insight from data using modelling and visualization. Data munging and manipulation is hard and statistics has just said that’s not our domain.* --- Hadley Wickham
Usualmente, cientistas de dados partem de uma base "crua" e a transformam até obter uma base de dados analítica, que, a menos de transformações simples, está preparada para gerar tabelas e gráficos e alimentar modelos.
```{r transform, echo=FALSE, fig.align='center', fig.cap="Estamos na etapa de arrumação do ciclo da Ciência de Dados."}
knitr::include_graphics('assets/img/manipulacao/ciclo-ciencia-de-dados.png')
```
Um conceito importante para obtenção de uma base analítica é o *data tidying*, ou arrumação de dados. Uma base é considerada *tidy* se
- 1. Cada linha da base representa uma observação.
- 2. Cada coluna da base representa uma variável.
A base de dados analítica é estruturada de tal forma que pode ser colocada diretamente em ambientes de modelagem estatística ou de visualização. Nem sempre uma base de dados analítica está no formato *tidy*, mas usualmente são necessários poucos passos para migrar de uma para outra. A filosofia *tidy* é a base do [tidyverse](https://www.tidyverse.org/).
Os principais pacotes encarregados da tarefa de estruturar os dados são o `dplyr` e o `tidyr`. Eles serão o tema desse capítulo. Instale e carregue os pacotes utilizando:
```{r, eval=FALSE}
install.packages(c("dplyr", "tidyr"))
library(dplyr)
library(tidyr)
```
Mas antes de apresentar as principais funções do `dplyr` e do `tidyr`, precisamos falar sobre o conceito de `tibbles`.