Pacotes
Os pacotes da Base dos Dados permitem o acesso ao datalake público direto do seu computador ou ambiente de desenvolvimento. Atualmente disponíveis em:
- Python
- R
- Stata
- CLI (terminal)
Pronto(a) para começar? Nesta página você encontra:
Primeiros passos
Antes de começar: Crie o seu projeto no Google Cloud
Para criar um projeto no Google Cloud basta ter um email cadastrado no Google. É necessário ter um projeto seu, mesmo que vazio, para você fazer queries em nosso datalake público.
- Acesse o Google Cloud. Caso for a sua primeira vez, aceite o Termo de Serviços.
- Clique em
Create Project/Criar Projeto
. Escolha um nome bacana para o projeto. - Clique em
Create/Criar
Por que eu preciso criar um projeto no Google Cloud?
A Google fornece 1 TB gratuito por mês de uso do BigQuery para cada projeto que você possui. Um projeto é necessário para ativar os serviços do Google Cloud, incluindo a permissão de uso do BigQuery. Pense no projeto como a "conta" na qual a Google vai contabilizar o quanto de processamento você já utilizou. Não é necessário adicionar nenhum cartão ou forma de pagamento - O BigQuery inicia automaticamente no modo Sandbox, que permite você utilizar seus recursos sem adicionar um modo de pagamento. Leia mais aqui.
Instalando o pacote
Para instalação do pacote em Python e linha de comando, você pode usar o
pip
direto do seu terminal. Em R, basta instalar diretamente no
RStudio ou editor de sua preferência.
pip install basedosdados
install.packages("basedosdados")
Requerimentos:
- Garantir que seu Stata seja a versão 16+
- Garantir que o Python esteja instalado no seu computador.
Com os requerimentos satisfeitos, rodar os comandos abaixo:
net install basedosdados, from("https://raw.githubusercontent.com/basedosdados/mais/master/stata-package")
Configurando o pacote
Uma vez com seu projeto, você precisa configurar o pacote para usar o ID
desse projeto nas consultas ao datalake. Para isso, você deve usar o
project_id
que a Google fornece para você assim que o
projeto é criado.
Não é necessário configurar o projeto de antemão. Assim que você roda a 1ª consulta, o pacote irá indicar os passos para configuração.
Uma vez com o project_id
, você deve passar essa
informação para o pacote usando a função set_billing_id
.
set_billing_id("<YOUR_PROJECT_ID>")
É necessário especificar o project_id
a cada vez que usar o pacote.
Faça sua primeira consulta
Um exemplo simples para começar a explorar o datalake é puxar informações cadastrais de
municípios direto na nossa base de Diretórios Brasileiros (tabela municipio
). Para isso, vamos usar a
função download
, baixando os dados direto para nossa máquina.
import basedosdados as bd
bd.download(savepath="<PATH>",
dataset_id="br-bd-diretorios-brasil", table_id="municipio")
Para entender mais sobre a função download
, leia o manual de referência.
library("basedosdados")
query <- "SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`"
dir <- tempdir()
data <- download(query, "<PATH>")
Para entender mais sobre a função download
, leia o manual de referência.
bd_read_sql, ///
path("<PATH>") ///
query("SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`") ///
billing_project_id("<PROJECT_ID>")
basedosdados download "where/to/save/file" \
--billing_project_id <YOUR_PROJECT_ID> \
--query 'SELECT * FROM
`basedosdados.br_bd_diretorios_brasil.municipio`'
download
, leia o manual de referência.
Tutoriais
Como usar os pacotes
Preparamos tutoriais apresentando as principais funções de cada pacote para você começar a usá-los.
Blog:
Vídeos:
Blog:
Vídeos:
Documentação: