MongoDB

sql >> Database > >> NoSQL >> MongoDB

Come rimuovo i tweet vuoti usando filter() in pyspark?

Se i tuoi dati sono così

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

puoi usare len(x) come condizione del filtro:

tweets.filter(lambda x: len(x) > 0).count()

Trova un documento dall'intera raccolta, con un valore specifico nidificato all'interno di più documenti secondari incorporati

Mongo $ filtro di ricerca utilizzando la query nidificata