> m <- c("Rio de Janeiro", "São Paulo")
> p <- c(175.7, 389.3)
> municípios <- list(nome = m, pib2009 = p)
> municípios <- data.frame(municípios)
Os três primeiros comandos criam uma lista chamada "municípios" com dois componentes. O primeiro é um vetor alfanumérico contendo os nomes dos municípios "Rio de Janeiro" e "São Paulo". O segundo, um vetor numérico contendo o produto interno bruto desses municípios em 2009, em bilhões de reais (dados do IBGE). O quarto comando, por fim, dá a essa lista a classe data.frame, criando então a moldura. Nessa moldura, as entidades são os municípios e cada linha da moldura representa uma entidade. Os atributos que as descrevem são o nome e o PIB, correspondendo às duas colunas da moldura.
No contexto das bases de dados relacionais, a entidade (a linha na moldura) é mais importante do que o atributo (a coluna), porque o objetivo primário das bases de dados é a identificação das entidades. No contexto da estatística, porém, as colunas são mais importantes. A Estatística não está interessada nos indivíduos. A Estatística foi criada para estudar características de grupos e relacionamentos entre grupos. Por isso, a linguagem R orienta-se mais naturalmente para a manipulação das colunas das molduras do para a manipulação das suas linhas. Continuando o exemplo de cima, é trivial obter os valores das colunas e realizar contas com eles:
> municípios$pib2009
[1] 175.7 389.3
> mean(municípios$pib2009)
[1] 282.5
A seleção das entidades é um menos intuitiva, porque isso não é a ênfase da Estatística (embora seja crucial nas bases de dados). Para selecionar, por exemplo, todos os dados do município do Rio de Janeiro, pode-se usar indexação com vetores lógicos, que estudamos em aulas passadas:
> municípios[municípios$nome == "Rio de Janeiro", ]
nome pib2009
1 Rio de Janeiro 175.7
Em suma: é possível selecionar individualmente tanto uma coluna quanto uma linha de uma moldura de dados. Mas é sintaticamente mais simples selecionar colunas, porque em última análise são as colunas que interessam mais em Estatística.
Nenhum comentário:
Postar um comentário