PostgreSQL
 sql >> Database >  >> RDS >> PostgreSQL

Pyspark:rimuove il carattere nullo UTF dal dataframe pyspark

Ah aspetta - penso di averlo. Se faccio qualcosa del genere, sembra funzionare:

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

E quindi mappatura a tutte le colonne di stringhe:

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )