MongoDB
 sql >> Database >  >> NoSQL >> MongoDB

Connettore Spark Mongo, MongoShardedPartitioner non funziona

Mi dispiace, Jose, che stai riscontrando un problema con il connettore.

Le informazioni sui partizionatori sono disponibili sul sito di documentazione del connettore Spark . Presenta un ticket nel progetto Docs jira se ritieni che qualcosa manchi o non sia chiaro, potrebbe davvero aiutare i futuri utenti!

Il partizionatore predefinito è un sottile wrapper attorno a MongoSamplePartitioner . Suddivide una raccolta in partizioni di dimensioni basate sul campionamento statistico della raccolta.

Il MongoShardedPartitioner utilizza la shardKey per generare le partizioni. Per impostazione predefinita utilizzerà _id come chiave. Potrebbe essere necessario configurare quel valore.

Nota: Gli shardkey con hash non supportato da MongoShardedPartitioner poiché attualmente non è possibile eseguire query su una raccolta rispetto al valore hash, quindi durante il recupero delle partizioni non verranno restituiti risultati. Ho aggiunto DOCS-12345 per aggiornare la documentazione.

Sembra che ci sia un problema nella tua configurazione in cui MongoShardedPartitioner non riesce a partizionare la raccolta come previsto e restituisce 0 risultati. L'inferenza dello schema funzionerà comunque a causa del modo in cui interroga la raccolta. Se non si tratta di un problema di configurazione/hashing shardkey, allora invia un bug nel progetto Spark jira e posso aiutarti a identificare la causa e rilasciare una soluzione per te.