Usando:
sc.parallelize(startDate to endDate)
Con startData e endDate come Longs generati da Date dal formato:
("yyyy-MM-dd HH:mm:ss")
Ho creato Spark per creare un array enorme (oltre 100.000 oggetti) da unire con la tabella C* e non si è bloccato affatto:C* ha lavorato duramente per realizzare il join e restituire i dati.
Infine, ho cambiato il mio intervallo in:
case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")
E ora va bene.