Paquetes
Los paquetes de Base de los Datos permiten el acceso al data lake público directamente desde tu computadora o entorno de desarrollo. Actualmente disponibles en:
- Python
- R
- Stata
- CLI (terminal)
¿Listo(a) para empezar? En esta página encontrarás:
Primeros pasos
Antes de empezar: Crea tu proyecto en Google Cloud
Para crear un proyecto en Google Cloud solo necesitas tener un correo registrado en Google. Es necesario tener un proyecto propio, aunque esté vacío, para poder hacer consultas en nuestro data lake público.
- Accede a Google Cloud. Si es tu primera vez, acepta los Términos de Servicio.
- Haz clic en
Create Project/Crear Proyecto
. Elige un buen nombre para el proyecto. - Haz clic en
Create/Crear
¿Por qué necesito crear un proyecto en Google Cloud?
Google proporciona 1 TB gratuito por mes de uso de BigQuery para cada proyecto que posees. Un proyecto es necesario para activar los servicios de Google Cloud, incluyendo el permiso de uso de BigQuery. Piensa en el proyecto como la "cuenta" en la que Google contabilizará cuánto procesamiento has utilizado. No es necesario agregar ninguna tarjeta o forma de pago - BigQuery inicia automáticamente en modo Sandbox, que te permite utilizar sus recursos sin agregar un método de pago. Lee más aquí.
Instalando el paquete
Para la instalación del paquete en Python y línea de comandos, puedes usar
pip
directamente desde tu terminal. En R, basta con instalarlo directamente en
RStudio o el editor de tu preferencia.
pip install basedosdados
install.packages("basedosdados")
Requerimientos:
- Asegurarte de que tu Stata sea la versión 16+
- Asegurarte de que Python esté instalado en tu computadora.
Con los requerimientos satisfechos, ejecutar los comandos siguientes:
net install basedosdados, from("https://raw.githubusercontent.com/basedosdados/sdk/master/stata-package")
Configurando el paquete
Una vez con tu proyecto, necesitas configurar el paquete para usar el ID
de ese proyecto en las consultas al datalake. Para esto, debes usar el
project_id
que Google te proporciona tan pronto como el
proyecto es creado.
No es necesario configurar el proyecto de antemano. Tan pronto como ejecutes la primera consulta, el paquete indicará los pasos para la configuración.
Una vez con el project_id
, debes pasar esta
información al paquete usando la función set_billing_id
.
set_billing_id("<YOUR_PROJECT_ID>")
Es necesario especificar el project_id
cada vez que uses el paquete.
Haz tu primera consulta
Un ejemplo simple para empezar a explorar el datalake es obtener información catastral de
municipios directamente en nuestra base de Directorios Brasileños (tabla municipio
). Para esto, usaremos la
función download
, descargando los datos directamente a nuestra máquina.
import basedosdados as bd
bd.download(savepath="<PATH>",
dataset_id="br-bd-diretorios-brasil", table_id="municipio")
Para entender más sobre la función download
, lee el manual de referencia.
library("basedosdados")
query <- "SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`"
dir <- tempdir()
data <- download(query, "<PATH>")
Para entender más sobre la función download
, lee el manual de referencia.
bd_read_sql, ///
path("<PATH>") ///
query("SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`") ///
billing_project_id("<PROJECT_ID>")
basedosdados download "where/to/save/file" \
--billing_project_id <YOUR_PROJECT_ID> \
--query 'SELECT * FROM
`basedosdados.br_bd_diretorios_brasil.municipio`'
download
, lee el manual de referencia.
Tutoriales
Cómo usar los paquetes
Preparamos tutoriales presentando las principales funciones de cada paquete para que empieces a usarlos.
Blog:
Videos:
Blog:
Videos:
Documentación: