Mi dispiace, Jose, che stai riscontrando un problema con il connettore.
Le informazioni sui partizionatori sono disponibili sul sito di documentazione del connettore Spark . Presenta un ticket nel progetto Docs jira se ritieni che qualcosa manchi o non sia chiaro, potrebbe davvero aiutare i futuri utenti!
Il partizionatore predefinito è un sottile wrapper attorno a MongoSamplePartitioner
. Suddivide una raccolta in partizioni di dimensioni basate sul campionamento statistico della raccolta.
Il MongoShardedPartitioner
utilizza la shardKey
per generare le partizioni. Per impostazione predefinita utilizzerà _id
come chiave. Potrebbe essere necessario configurare quel valore.
Nota: Gli shardkey con hash non supportato da MongoShardedPartitioner
poiché attualmente non è possibile eseguire query su una raccolta rispetto al valore hash, quindi durante il recupero delle partizioni non verranno restituiti risultati. Ho aggiunto DOCS-12345
per aggiornare la documentazione.
Sembra che ci sia un problema nella tua configurazione in cui MongoShardedPartitioner
non riesce a partizionare la raccolta come previsto e restituisce 0 risultati. L'inferenza dello schema funzionerà comunque a causa del modo in cui interroga la raccolta. Se non si tratta di un problema di configurazione/hashing shardkey, allora invia un bug nel progetto Spark jira e posso aiutarti a identificare la causa e rilasciare una soluzione per te.