Saltar a contenido

Paquetes

Los paquetes de Base de los Datos permiten el acceso al data lake público directamente desde tu computadora o entorno de desarrollo. Actualmente disponibles en:

  • Python
  • R
  • Stata
  • CLI (terminal)

¿Listo(a) para empezar? En esta página encontrarás:

Primeros pasos

Antes de empezar: Crea tu proyecto en Google Cloud

Para crear un proyecto en Google Cloud solo necesitas tener un correo registrado en Google. Es necesario tener un proyecto propio, aunque esté vacío, para poder hacer consultas en nuestro data lake público.

  1. Accede a Google Cloud. Si es tu primera vez, acepta los Términos de Servicio.
  2. Haz clic en Create Project/Crear Proyecto. Elige un buen nombre para el proyecto.
  3. Haz clic en Create/Crear
¿Por qué necesito crear un proyecto en Google Cloud?

Google proporciona 1 TB gratuito por mes de uso de BigQuery para cada proyecto que posees. Un proyecto es necesario para activar los servicios de Google Cloud, incluyendo el permiso de uso de BigQuery. Piensa en el proyecto como la "cuenta" en la que Google contabilizará cuánto procesamiento has utilizado. No es necesario agregar ninguna tarjeta o forma de pago - BigQuery inicia automáticamente en modo Sandbox, que te permite utilizar sus recursos sin agregar un método de pago. Lee más aquí.

Instalando el paquete

Para la instalación del paquete en Python y línea de comandos, puedes usar pip directamente desde tu terminal. En R, basta con instalarlo directamente en RStudio o el editor de tu preferencia.

pip install basedosdados
install.packages("basedosdados")

Requerimientos:

  1. Asegurarte de que tu Stata sea la versión 16+
  2. Asegurarte de que Python esté instalado en tu computadora.

Con los requerimientos satisfechos, ejecutar los comandos siguientes:

net install basedosdados, from("https://raw.githubusercontent.com/basedosdados/sdk/master/stata-package")

Configurando el paquete

Una vez con tu proyecto, necesitas configurar el paquete para usar el ID de ese proyecto en las consultas al datalake. Para esto, debes usar el project_id que Google te proporciona tan pronto como el proyecto es creado.

Ejemplo de ID del Proyecto en BigQuery

No es necesario configurar el proyecto de antemano. Tan pronto como ejecutes la primera consulta, el paquete indicará los pasos para la configuración.

Una vez con el project_id, debes pasar esta información al paquete usando la función set_billing_id.

set_billing_id("<YOUR_PROJECT_ID>")

Es necesario especificar el project_id cada vez que uses el paquete.

Haz tu primera consulta

Un ejemplo simple para empezar a explorar el datalake es obtener información catastral de municipios directamente en nuestra base de Directorios Brasileños (tabla municipio). Para esto, usaremos la función download, descargando los datos directamente a nuestra máquina.

import basedosdados as bd
bd.download(savepath="<PATH>",
dataset_id="br-bd-diretorios-brasil", table_id="municipio")

Para entender más sobre la función download, lee el manual de referencia.

library("basedosdados")
query <- "SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`"
dir <- tempdir()
data <- download(query, "<PATH>")

Para entender más sobre la función download, lee el manual de referencia.

bd_read_sql, ///
    path("<PATH>") ///
    query("SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio`") ///
    billing_project_id("<PROJECT_ID>")

basedosdados download "where/to/save/file" \
--billing_project_id <YOUR_PROJECT_ID> \
--query 'SELECT * FROM
`basedosdados.br_bd_diretorios_brasil.municipio`'
Para entender más sobre la función download, lee el manual de referencia.

Tutoriales

Cómo usar los paquetes

Preparamos tutoriales presentando las principales funciones de cada paquete para que empieces a usarlos.

Manuales de referencia (API)