PostgreSQL
 sql >> Database >  >> RDS >> PostgreSQL

Partizioni di dataframe SparkSQL PostgresQL

Essenzialmente il limite inferiore e superiore e il numero di partizioni vengono utilizzati per calcolare l'incremento o la divisione per ciascuna attività parallela.

Supponiamo che la tabella abbia la colonna di partizione "anno" e abbia dati dal 2006 al 2016.

Se definisci il numero di partizioni come 10, con limite inferiore 2006 e limite superiore 2016, ogni attività recupererà i dati per il proprio anno:il caso ideale.

Anche se si specifica in modo errato il limite inferiore e/o superiore, ad es. impostando inferiore =0 e superiore =2016, ci sarà una distorsione nel trasferimento dei dati, ma non "perderai" o non riuscirai a recuperare alcun dato, perché:

La prima attività recupererà i dati per l'anno <0.

La seconda attività recupererà i dati per l'anno compreso tra 0 e 2016/10.

La terza attività recupererà i dati per l'anno compreso tra il 2016/10 e il 2*2016/10.

...

E l'ultima attività avrà una condizione dove con l'anno->2016.

T.