MongoDB
 sql >> Database >  >> NoSQL >> MongoDB

Come rimuovo i tweet vuoti usando filter() in pyspark?

Se i tuoi dati sono così

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

puoi usare len(x) come condizione del filtro:

tweets.filter(lambda x: len(x) > 0).count()