MongoDB
 sql >> Database >  >> NoSQL >> MongoDB

Eccezione durante la connessione a mongodb in spark

Penso di aver trovato il problema:mongodb-hadoop ha un modificatore "statico" sulle sue istanze di codifica/decodificatore BSON in core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Quando Spark viene eseguito in modalità multithread, tutti i thread tentano di deserializzare utilizzando lo stesso istanze codificatore/decodificatore, che presumibilmente hanno risultati negativi.

Patch sul mio github qui (hanno inviato una richiesta pull a monte)

Ora sono in grado di eseguire Spark->mongo collection count() con 8 core multithread da Python!