Ir para o conteúdo

Pacotes

Os pacotes da Base dos Dados permitem o acesso ao datalake público direto do seu computador ou ambiente de desenvolvimento. Atualmente disponíveis em:

  • Python
  • R
  • Stata
  • CLI (terminal)

Pronto(a) para começar? Nesta página você encontra:

Primeiros passos

Antes de começar: Crie o seu projeto no Google Cloud

Para criar um projeto no Google Cloud basta ter um email cadastrado no Google. É necessário ter um projeto seu, mesmo que vazio, para você fazer queries em nosso datalake público.

  1. Acesse o Google Cloud. Caso for a sua primeira vez, aceite o Termo de Serviços.
  2. Clique em Create Project/Criar Projeto. Escolha um nome bacana para o projeto.
  3. Clique em Create/Criar
Por que eu preciso criar um projeto no Google Cloud?

A Google fornece 1 TB gratuito por mês de uso do BigQuery para cada projeto que você possui. Um projeto é necessário para ativar os serviços do Google Cloud, incluindo a permissão de uso do BigQuery. Pense no projeto como a "conta" na qual a Google vai contabilizar o quanto de processamento você já utilizou. Não é necessário adicionar nenhum cartão ou forma de pagamento - O BigQuery inicia automaticamente no modo Sandbox, que permite você utilizar seus recursos sem adicionar um modo de pagamento. Leia mais aqui.

Instalando o pacote

Para instalação do pacote em Python e linha de comando, você pode usar o pip direto do seu terminal. Em R, basta instalar diretamente no RStudio ou editor de sua preferência.

pip install basedosdados
install.packages("basedosdados")

Requerimentos:

  1. Garantir que seu Stata seja a versão 16+
  2. Garantir que o Python esteja instalado no seu computador.

Com os requerimentos satisfeitos, rodar os comandos abaixo:

net install basedosdados, from("https://raw.githubusercontent.com/basedosdados/mais/master/stata-package")

Configurando o pacote

Uma vez com seu projeto, você precisa configurar o pacote para usar o ID desse projeto nas consultas ao datalake. Para isso, você deve usar o project_id que a Google fornece para você assim que o projeto é criado.

Exemplo de ID do Projeto no BigQuery

Não é necessário configurar o projeto de antemão. Assim que você roda a 1ª consulta, o pacote irá indicar os passos para configuração.

Uma vez com o project_id, você deve passar essa informação para o pacote usando a função set_billing_id.

set_billing_id("<YOUR_PROJECT_ID>")

É necessário especificar o project_id a cada vez que usar o pacote.

Faça sua primeira consulta

Um exemplo simples para começar a explorar o datalake é puxar informações cadastrais de municípios direto na nossa base de Diretórios Brasileiros (tabela municipio). Para isso, vamos usar a função download, baixando os dados direto para nossa máquina.

import basedosdados as bd
bd.download(savepath="<PATH>",
dataset_id="br-bd-diretorios-brasil", table_id="municipio")

Para entender mais sobre a função download, leia o manual de referência.

library("basedosdados")
query <- "SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`"
dir <- tempdir()
data <- download(query, "<PATH>")

Para entender mais sobre a função download, leia o manual de referência.

bd_read_sql, ///
    path("<PATH>") ///
    query("SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`") ///
    billing_project_id("<PROJECT_ID>")

basedosdados download "where/to/save/file" \
--billing_project_id <YOUR_PROJECT_ID> \
--query 'SELECT * FROM
`basedosdados.br_bd_diretorios_brasil.municipio`'
Para entender mais sobre a função download, leia o manual de referência.

Tutoriais

Como usar os pacotes

Preparamos tutoriais apresentando as principais funções de cada pacote para você começar a usá-los.

Manuais de referência (API)