Connettore Spark Mongo, MongoShardedPartitioner non funziona

Mi dispiace, Jose, che stai riscontrando un problema con il connettore.

Le informazioni sui partizionatori sono disponibili sul sito di documentazione del connettore Spark . Presenta un ticket nel progetto Docs jira se ritieni che qualcosa manchi o non sia chiaro, potrebbe davvero aiutare i futuri utenti!

Il partizionatore predefinito è un sottile wrapper attorno a MongoSamplePartitioner . Suddivide una raccolta in partizioni di dimensioni basate sul campionamento statistico della raccolta.

Il MongoShardedPartitioner utilizza la shardKey per generare le partizioni. Per impostazione predefinita utilizzerà _id come chiave. Potrebbe essere necessario configurare quel valore.

Nota: Gli shardkey con hash non supportato da MongoShardedPartitioner poiché attualmente non è possibile eseguire query su una raccolta rispetto al valore hash, quindi durante il recupero delle partizioni non verranno restituiti risultati. Ho aggiunto DOCS-12345 per aggiornare la documentazione.

Sembra che ci sia un problema nella tua configurazione in cui MongoShardedPartitioner non riesce a partizionare la raccolta come previsto e restituisce 0 risultati. L'inferenza dello schema funzionerà comunque a causa del modo in cui interroga la raccolta. Se non si tratta di un problema di configurazione/hashing shardkey, allora invia un bug nel progetto Spark jira e posso aiutarti a identificare la causa e rilasciare una soluzione per te.