Mysql
 sql >> Database >  >> RDS >> Mysql

Spark JoinWithCassandraTable sulla chiave di partizione TimeStamp STUCK

Usando:

sc.parallelize(startDate to endDate)

Con startData e endDate come Longs generati da Date dal formato:

("yyyy-MM-dd HH:mm:ss")

Ho creato Spark per creare un array enorme (oltre 100.000 oggetti) da unire con la tabella C* e non si è bloccato affatto:C* ha lavorato duramente per realizzare il join e restituire i dati.

Infine, ho cambiato il mio intervallo in:

case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")

E ora va bene.