O Manuscrito de Tunbridge Wells: Selecionando linhas de uma moldura de dados

terça-feira, 27 de março de 2012

Selecionando linhas de uma moldura de dados

Na terminologia das bases de dados relacionais, a moldura de dados (data frame) da linguagem R é uma estrutura em que cada linha representa uma entidade e cada coluna representa um atributo das entidades. Por exemplo, considere a sequência de comandos abaixo:

> m <- c("Rio de Janeiro", "São Paulo")
> p <- c(175.7, 389.3)
> municípios <- list(nome = m, pib2009 = p)
> municípios <- data.frame(municípios)

Os três primeiros comandos criam uma lista chamada "municípios" com dois componentes. O primeiro é um vetor alfanumérico contendo os nomes dos municípios "Rio de Janeiro" e "São Paulo". O segundo, um vetor numérico contendo o produto interno bruto desses municípios em 2009, em bilhões de reais (dados do IBGE). O quarto comando, por fim, dá a essa lista a classe data.frame, criando então a moldura. Nessa moldura, as entidades são os municípios e cada linha da moldura representa uma entidade. Os atributos que as descrevem são o nome e o PIB, correspondendo às duas colunas da moldura.

No contexto das bases de dados relacionais, a entidade (a linha na moldura) é mais importante do que o atributo (a coluna), porque o objetivo primário das bases de dados é a identificação das entidades. No contexto da estatística, porém, as colunas são mais importantes. A Estatística não está interessada nos indivíduos. A Estatística foi criada para estudar características de grupos e relacionamentos entre grupos. Por isso, a linguagem R orienta-se mais naturalmente para a manipulação das colunas das molduras do para a manipulação das suas linhas. Continuando o exemplo de cima, é trivial obter os valores das colunas e realizar contas com eles:

> municípios$pib2009
[1] 175.7 389.3
> mean(municípios$pib2009)
[1] 282.5

A seleção das entidades é um menos intuitiva, porque isso não é a ênfase da Estatística (embora seja crucial nas bases de dados). Para selecionar, por exemplo, todos os dados do município do Rio de Janeiro, pode-se usar indexação com vetores lógicos, que estudamos em aulas passadas:

> municípios[municípios$nome == "Rio de Janeiro", ]

nome pib2009

1 Rio de Janeiro 175.7

Em suma: é possível selecionar individualmente tanto uma coluna quanto uma linha de uma moldura de dados. Mas é sintaticamente mais simples selecionar colunas, porque em última análise são as colunas que interessam mais em Estatística.

O Manuscrito de Tunbridge Wells

terça-feira, 27 de março de 2012

Selecionando linhas de uma moldura de dados

Nenhum comentário:

Postar um comentário