Consumiendo datos de SQL Server con Google Dataproc

Antes de iniciar, es necesario que tengas los siguientes insumos listos!

Cadena de conexión a tu SQL Server
Archivo JAR con el Driver (Aquí se pueden descargar)
- SQL Server https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Lo primero que vamos a hacer es crear un bucket en Google Cloud en donde almacenaremos los archivos jar que vamos a utilizar

En este bucket que yo he llamado test-iwco vamos a crear 2 carpetas que utilizaremos mas adelante.

acciones
jars

En la carpeta jars debemos subir los archivos que hemos descargado previamente

En la carpeta acciones, subiremos un archivo shell que contiene lo siguiente:

Este archivo lo almacenaremos con el nombre init_actions.sh y lo cargaremos en la carpeta acciones del bucket creado previamente.

NOTA: Es posible que el archivo init_actions.sh les presente problemas, para esto, en notepad++ cambien el sistema de cambio de lineas de windows a UNIX

Ahora es momento de crear el cluster!!

Inicia el proceso de creacion del cluster de Dataproc, selecciona las configuraciones necesarias para tu proyecto
Da clic en Personalizar Cluster (Customize Cluster)

Ahora ve a Propiedades del Cluster (Cluster Properties) y agrega 3 propiedades

Prefijo (Prefix)	Llave (Key)	Valor (Value)
spark	spark.jars	/usr/local/lib/jars/*
spark	spark.driver.extraClassPath	/usr/local/lib/jars/*
dataproc	dataproc.conscrypt.provider.enable	false