AWS EMR PySpark si connette a mysql

Se desideri eseguire Spark Job su Amazon EMR 3.x o EMR 4.x, devi eseguire le seguenti operazioni:

1) Puoi citare spark-defaults.conf proprietà durante il bootstrap, ovvero puoi modificare la configurazione di Driver Classpath e Percorso classe esecutore proprietà e anche maximizeResourceAllocation (Chiedi maggiori informazioni nei commenti, se necessario.) documenti

2) È necessario scaricare tutti i jar richiesti, ad esempio (mysql-connector.jar e mariadb-connector.jar) nel tuo caso i jar JDBC del connettore MariaDB e MySQL in tutte le posizioni del percorso di classe come Spark, Yarn e Hadoop su tutti i nodi sia esso è MASTER, CORE o TASK (Lo scenario Spark On Yarn copre la maggior parte) documenti sugli script bootstrap

3) E se il tuo Spark Job sta comunicando solo dal nodo Driver al tuo database, potresti aver bisogno solo di usare --jars e non ti farà eccezione e funziona bene.

4) Ti consiglio anche di provare Master come cluster di filati invece di locale o cliente di filato

Nel tuo caso, se usi MariaDB o MySQL copia i tuoi jar su $SPRK_HOME/lib , $HADOOP_HOME/lib ecc. su ogni singolo nodo del tuo cluster e poi provalo.

Successivamente potrai utilizzare le azioni Bootstrap per copiare i tuoi jar su tutti i nodi durante il tempo di creazione del cluster.

Si prega di commentare di seguito per maggiori informazioni.