I dati vengono acquisiti e archiviati per una serie di motivi. Ore oltre il conteggio (e anche più budget) investite nella raccolta, acquisizione, strutturazione, convalida e, infine, archiviazione dei dati; dire che è un bene prezioso significa portare a casa un punto controverso. Oggigiorno potrebbe, infatti, essere il nostro bene più prezioso.
Alcuni dati vengono utilizzati esclusivamente come archivio. Forse per registrare o tenere traccia di eventi accaduti in passato. Ma l'altro lato della medaglia è che i dati storici hanno un valore nel basare le decisioni per il futuro e gli impegni futuri.
- In che giorno saranno disponibili i nostri saldi? (Pianificazione per le vendite future in base a come abbiamo fatto in passato.)
- Quale venditore ha ottenuto i risultati migliori nel primo trimestre? (Guardando indietro, chi possiamo premiare per i loro sforzi.)
- Quale ristorante è più frequentato a metà luglio? (La stagione dei viaggi è alle porte... A chi possiamo vendere i nostri generi alimentari e merci?)
Ottieni l'immagine. L'utilizzo dei dati a portata di mano è parte integrante di qualsiasi organizzazione.
Molte aziende creano, basano e forniscono servizi con i dati. Dipendono da questo.
Diversi mesi fa, a seconda di quando stai leggendo questo, ho iniziato a camminare per fare esercizio, sul serio, per perdere peso, controllare la mia salute e cercare un po' di solitudine quotidiana in questo mondo frenetico in cui viviamo.
Ho utilizzato un'app contapassi mobile per monitorare le mie escursioni, anche considerando le scarpe che ho indossato, poiché ho la tendenza ad essere estremamente esigente quando si tratta di calzature.
Sebbene questi dati non siano così importanti come quelli menzionati negli scenari precedenti, per me un elemento chiave nell'apprendimento di qualsiasi cosa è usare qualcosa che mi interessa, con cui posso relazionarmi e capire.
Le funzioni della finestra sono sul mio radar da esplorare da molto tempo ormai. Quindi, ho pensato di provarne un paio in questo post. Essendo stato recentemente supportato in MySQL 8 (visita questo blog di Diversinines ho scritto sugli aggiornamenti e le nuove aggiunte di MySQL 8 dove li menziono brevemente) quell'ecosistema è quello che userò qui. Attenzione, non sono un guru delle funzioni analitiche delle finestre.
Cos'è una funzione finestra MySQL?
La documentazione MySQL li definisce come tali: "Una funzione di finestra esegue un'operazione di tipo aggregato su un insieme di righe di query. Tuttavia, mentre un'operazione di aggregazione raggruppa le righe di query in un'unica riga di risultato, una funzione di finestra produce un risultato per ogni riga di query:"
Set di dati e configurazione per questo post
Memorizzo i dati acquisiti dalle mie passeggiate in questa tabella:
mysql> DESC hiking_stats;
| Field | Type | Null | Key | Default | Extra |
| day_walked | date | YES | | NULL | |
| burned_calories | decimal(4,1) | YES | | NULL | |
| distance_walked | decimal(4,2) | YES | | NULL | |
| time_walking | time | YES | | NULL | |
| pace | decimal(2,1) | YES | | NULL | |
| shoes_worn | text | YES | | NULL | |
| trail_hiked | text | YES | | NULL | |
7 rows in set (0.01 sec)
Ci sono quasi 90 giorni di dati qui:
mysql> SELECT COUNT(*) FROM hiking_stats;
| COUNT(*) |
| 84 |
1 row in set (0.00 sec)
Lo ammetto, sono schizzinoso riguardo alle mie calzature, quindi determiniamo quale paio di scarpe ho preferito di più:
mysql> SELECT DISTINCT shoes_worn, COUNT(*)
-> FROM hiking_stats
-> GROUP BY shoes_worn;
| shoes_worn | COUNT(*) |
| New Balance Trail Runners-All Terrain | 30 |
| Oboz Sawtooth Low | 47 |
| Keen Koven WP(keen-dry) | 6 |
| New Balance 510v2 | 1 |
4 rows in set (0.00 sec)
Per fornire una dimostrazione sullo schermo migliore e gestibile, limiterò la parte rimanente dei risultati della query solo a quelle delle scarpe preferite che ho indossato 47 volte.
Ho anche una colonna trail_hiked e da quando ero in 'modalità esercizio ultra ' durante questo periodo di quasi 3 mesi, ho anche contato le calorie mentre falciavo il cortile a spinta:
mysql> SELECT DISTINCT trail_hiked, COUNT(*)
-> FROM hiking_stats
-> GROUP BY trail_hiked;
| trail_hiked | COUNT(*) |
| Yard Mowing | 14 |
| Sandy Trail-Drive | 20 |
| West Boundary | 29 |
| House-Power Line Route | 10 |
| Tree Trail-extended | 11 |
5 rows in set (0.01 sec)
Tuttavia, per limitare ulteriormente il set di dati, filtrerò anche quelle righe:
mysql> SELECT COUNT(*)
-> FROM hiking_stats
-> WHERE shoes_worn = 'Oboz Sawtooth Low'
-> AND
-> trail_hiked <> 'Yard Mowing';
| COUNT(*) |
| 40 |
1 row in set (0.01 sec)
Per motivi di semplicità e facilità d'uso, creerò una VISTA delle colonne con cui lavorare:
mysql> CREATE VIEW vw_fav_shoe_stats AS
-> (SELECT day_walked, burned_calories, distance_walked, time_walking, pace, trail_hiked
-> FROM hiking_stats
-> WHERE shoes_worn = 'Oboz Sawtooth Low'
-> AND trail_hiked <> 'Yard Mowing');
Query OK, 0 rows affected (0.19 sec)
Lasciandomi con questo insieme di dati:
mysql> SELECT * FROM vw_fav_shoe_stats;
| day_walked | burned_calories | distance_walked | time_walking | pace | trail_hiked |
| 2018-06-03 | 389.6 | 4.11 | 01:13:19 | 3.4 | Sandy Trail-Drive |
| 2018-06-04 | 394.6 | 4.26 | 01:14:15 | 3.4 | Sandy Trail-Drive |
| 2018-06-06 | 384.6 | 4.10 | 01:13:14 | 3.4 | Sandy Trail-Drive |
| 2018-06-07 | 382.7 | 4.12 | 01:12:52 | 3.4 | Sandy Trail-Drive |
| 2018-06-17 | 296.3 | 2.82 | 00:55:45 | 3.0 | West Boundary |
| 2018-06-18 | 314.7 | 3.08 | 00:59:13 | 3.1 | West Boundary |
| 2018-06-20 | 338.5 | 3.27 | 01:03:42 | 3.1 | West Boundary |
| 2018-06-21 | 339.5 | 3.40 | 01:03:54 | 3.2 | West Boundary |
| 2018-06-24 | 392.4 | 3.76 | 01:13:51 | 3.1 | House-Power Line Route |
| 2018-06-25 | 362.1 | 3.72 | 01:08:09 | 3.3 | West Boundary |
| 2018-06-26 | 380.5 | 3.94 | 01:11:36 | 3.3 | West Boundary |
| 2018-07-03 | 323.7 | 3.29 | 01:00:55 | 3.2 | West Boundary |
| 2018-07-04 | 342.8 | 3.47 | 01:04:31 | 3.2 | West Boundary |
| 2018-07-06 | 375.7 | 3.80 | 01:10:42 | 3.2 | West Boundary |
| 2018-07-07 | 347.6 | 3.40 | 01:05:25 | 3.1 | Sandy Trail-Drive |
| 2018-07-08 | 351.6 | 3.58 | 01:06:09 | 3.2 | West Boundary |
| 2018-07-09 | 336.0 | 3.28 | 01:03:13 | 3.1 | West Boundary |
| 2018-07-11 | 375.2 | 3.81 | 01:10:37 | 3.2 | West Boundary |
| 2018-07-12 | 325.9 | 3.28 | 01:01:20 | 3.2 | West Boundary |
| 2018-07-15 | 382.9 | 3.91 | 01:12:03 | 3.3 | House-Power Line Route |
| 2018-07-16 | 368.6 | 3.72 | 01:09:22 | 3.2 | West Boundary |
| 2018-07-17 | 339.4 | 3.46 | 01:03:52 | 3.3 | West Boundary |
| 2018-07-18 | 368.1 | 3.72 | 01:08:28 | 3.3 | West Boundary |
| 2018-07-19 | 339.2 | 3.44 | 01:03:06 | 3.3 | West Boundary |
| 2018-07-22 | 378.3 | 3.76 | 01:10:22 | 3.2 | West Boundary |
| 2018-07-23 | 322.9 | 3.28 | 01:00:03 | 3.3 | West Boundary |
| 2018-07-24 | 386.4 | 3.81 | 01:11:53 | 3.2 | West Boundary |
| 2018-07-25 | 379.9 | 3.83 | 01:10:39 | 3.3 | West Boundary |
| 2018-07-27 | 378.3 | 3.73 | 01:10:21 | 3.2 | West Boundary |
| 2018-07-28 | 337.4 | 3.39 | 01:02:45 | 3.2 | Sandy Trail-Drive |
| 2018-07-29 | 348.7 | 3.50 | 01:04:52 | 3.2 | West Boundary |
| 2018-07-30 | 361.6 | 3.69 | 01:07:15 | 3.3 | West Boundary |
| 2018-07-31 | 359.9 | 3.66 | 01:06:57 | 3.3 | West Boundary |
| 2018-08-01 | 336.1 | 3.37 | 01:01:48 | 3.3 | West Boundary |
| 2018-08-03 | 259.9 | 2.57 | 00:47:47 | 3.2 | West Boundary |
| 2018-08-05 | 341.2 | 3.37 | 01:02:44 | 3.2 | West Boundary |
| 2018-08-06 | 357.7 | 3.64 | 01:05:46 | 3.3 | West Boundary |
| 2018-08-17 | 184.2 | 1.89 | 00:39:00 | 2.9 | Tree Trail-extended |
| 2018-08-18 | 242.9 | 2.53 | 00:51:25 | 3.0 | Tree Trail-extended |
| 2018-08-30 | 204.4 | 1.95 | 00:37:35 | 3.1 | House-Power Line Route |
40 rows in set (0.00 sec)
La prima funzione della finestra che esaminerò è ROW_NUMBER().
Supponiamo di volere un set di risultati ordinato dalla colonna calorie_bruciate per il mese di "luglio".
Naturalmente, posso recuperare quei dati con questa query:
mysql> SELECT day_walked, burned_calories, trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE MONTHNAME(day_walked) = 'July'
-> ORDER BY burned_calories DESC;
| day_walked | burned_calories | trail_hiked |
| 2018-07-24 | 386.4 | West Boundary |
| 2018-07-15 | 382.9 | House-Power Line Route |
| 2018-07-25 | 379.9 | West Boundary |
| 2018-07-22 | 378.3 | West Boundary |
| 2018-07-27 | 378.3 | West Boundary |
| 2018-07-06 | 375.7 | West Boundary |
| 2018-07-11 | 375.2 | West Boundary |
| 2018-07-16 | 368.6 | West Boundary |
| 2018-07-18 | 368.1 | West Boundary |
| 2018-07-30 | 361.6 | West Boundary |
| 2018-07-31 | 359.9 | West Boundary |
| 2018-07-08 | 351.6 | West Boundary |
| 2018-07-29 | 348.7 | West Boundary |
| 2018-07-07 | 347.6 | Sandy Trail-Drive |
| 2018-07-04 | 342.8 | West Boundary |
| 2018-07-17 | 339.4 | West Boundary |
| 2018-07-19 | 339.2 | West Boundary |
| 2018-07-28 | 337.4 | Sandy Trail-Drive |
| 2018-07-09 | 336.0 | West Boundary |
| 2018-07-12 | 325.9 | West Boundary |
| 2018-07-03 | 323.7 | West Boundary |
| 2018-07-23 | 322.9 | West Boundary |
22 rows in set (0.01 sec)
Eppure, per qualsiasi motivo (magari soddisfazione personale), voglio premiare una classifica tra le righe restituite che iniziano con 1 indicativo del conteggio delle calorie_bruciate più elevate, fino a (n) righe nel set di risultati.
ROW_NUMBER(), può gestirlo senza alcun problema:
mysql> SELECT day_walked, burned_calories,
-> ROW_NUMBER() OVER(ORDER BY burned_calories DESC)
-> AS position, trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE MONTHNAME(day_walked) = 'July';
| day_walked | burned_calories | position | trail_hiked |
| 2018-07-24 | 386.4 | 1 | West Boundary |
| 2018-07-15 | 382.9 | 2 | House-Power Line Route |
| 2018-07-25 | 379.9 | 3 | West Boundary |
| 2018-07-22 | 378.3 | 4 | West Boundary |
| 2018-07-27 | 378.3 | 5 | West Boundary |
| 2018-07-06 | 375.7 | 6 | West Boundary |
| 2018-07-11 | 375.2 | 7 | West Boundary |
| 2018-07-16 | 368.6 | 8 | West Boundary |
| 2018-07-18 | 368.1 | 9 | West Boundary |
| 2018-07-30 | 361.6 | 10 | West Boundary |
| 2018-07-31 | 359.9 | 11 | West Boundary |
| 2018-07-08 | 351.6 | 12 | West Boundary |
| 2018-07-29 | 348.7 | 13 | West Boundary |
| 2018-07-07 | 347.6 | 14 | Sandy Trail-Drive |
| 2018-07-04 | 342.8 | 15 | West Boundary |
| 2018-07-17 | 339.4 | 16 | West Boundary |
| 2018-07-19 | 339.2 | 17 | West Boundary |
| 2018-07-28 | 337.4 | 18 | Sandy Trail-Drive |
| 2018-07-09 | 336.0 | 19 | West Boundary |
| 2018-07-12 | 325.9 | 20 | West Boundary |
| 2018-07-03 | 323.7 | 21 | West Boundary |
| 2018-07-23 | 322.9 | 22 | West Boundary |
22 rows in set (0.00 sec)
Puoi vedere la riga con una quantità di calorie_bruciate di 386,4 con posizione 1, mentre la riga con valore 322.9 ha 22, che è l'importo minimo (o più basso) tra le righe restituite impostate.
Userò ROW_NUMBER() per qualcosa di un po' più interessante man mano che procediamo. Solo quando ho saputo che era usato in quel contesto, ho realizzato veramente parte del suo vero potere.
Successivamente, visitiamo la funzione della finestra RANK() per fornire un diverso tipo di 'classifica ' tra le righe. Indirizzeremo comunque il valore della colonna calorie_bruciate. E, sebbene RANK() sia simile a ROW_NUMBER() in quanto classifica in qualche modo le righe, introduce una sottile differenza in determinate circostanze.
Limiterò ulteriormente il numero di righe nel suo insieme filtrando tutti i record non nel mese di "luglio" ma prendendo di mira un percorso specifico:
mysql> SELECT day_walked, burned_calories,
-> RANK() OVER(ORDER BY burned_calories DESC) AS position,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE MONTHNAME(day_walked) = 'July'
-> AND trail_hiked = 'West Boundary';
| day_walked | burned_calories | position | trail_hiked |
| 2018-07-24 | 386.4 | 1 | West Boundary |
| 2018-07-25 | 379.9 | 2 | West Boundary |
| 2018-07-22 | 378.3 | 3 | West Boundary |
| 2018-07-27 | 378.3 | 3 | West Boundary |
| 2018-07-06 | 375.7 | 5 | West Boundary |
| 2018-07-11 | 375.2 | 6 | West Boundary |
| 2018-07-16 | 368.6 | 7 | West Boundary |
| 2018-07-18 | 368.1 | 8 | West Boundary |
| 2018-07-30 | 361.6 | 9 | West Boundary |
| 2018-07-31 | 359.9 | 10 | West Boundary |
| 2018-07-08 | 351.6 | 11 | West Boundary |
| 2018-07-29 | 348.7 | 12 | West Boundary |
| 2018-07-04 | 342.8 | 13 | West Boundary |
| 2018-07-17 | 339.4 | 14 | West Boundary |
| 2018-07-19 | 339.2 | 15 | West Boundary |
| 2018-07-09 | 336.0 | 16 | West Boundary |
| 2018-07-12 | 325.9 | 17 | West Boundary |
| 2018-07-03 | 323.7 | 18 | West Boundary |
| 2018-07-23 | 322.9 | 19 | West Boundary |
19 rows in set (0.01 sec)
Noti qualcosa di strano qui? Diverso da ROW_NUMBER()?
Controlla il valore della posizione per quelle righe di "2018-07-22" e "2018-07-27". Sono in parità al 3° posto.
Con una buona ragione poiché il valore burn_calorie di 378,3 è presente in entrambe le righe.
Come li classificherebbe ROW_NUMBER()?
mysql> SELECT day_walked, burned_calories,
-> ROW_NUMBER() OVER(ORDER BY burned_calories DESC) AS position,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE MONTHNAME(day_walked) = 'July'
-> AND trail_hiked = 'West Boundary';
| day_walked | burned_calories | position | trail_hiked |
| 2018-07-24 | 386.4 | 1 | West Boundary |
| 2018-07-25 | 379.9 | 2 | West Boundary |
| 2018-07-22 | 378.3 | 3 | West Boundary |
| 2018-07-27 | 378.3 | 4 | West Boundary |
| 2018-07-06 | 375.7 | 5 | West Boundary |
| 2018-07-11 | 375.2 | 6 | West Boundary |
| 2018-07-16 | 368.6 | 7 | West Boundary |
| 2018-07-18 | 368.1 | 8 | West Boundary |
| 2018-07-30 | 361.6 | 9 | West Boundary |
| 2018-07-31 | 359.9 | 10 | West Boundary |
| 2018-07-08 | 351.6 | 11 | West Boundary |
| 2018-07-29 | 348.7 | 12 | West Boundary |
| 2018-07-04 | 342.8 | 13 | West Boundary |
| 2018-07-17 | 339.4 | 14 | West Boundary |
| 2018-07-19 | 339.2 | 15 | West Boundary |
| 2018-07-09 | 336.0 | 16 | West Boundary |
| 2018-07-12 | 325.9 | 17 | West Boundary |
| 2018-07-03 | 323.7 | 18 | West Boundary |
| 2018-07-23 | 322.9 | 19 | West Boundary |
19 rows in set (0.06 sec)
Nessun pareggio nella numerazione delle colonne della posizione questa volta.
Ma chi ha la precedenza?
Per quanto ne so, per un ordinamento prevedibile, probabilmente dovrai determinarlo con altri mezzi aggiuntivi all'interno della query (ad esempio la colonna time_walking in questo caso?).
Ma non abbiamo ancora finito con le opzioni di classifica. Ecco DENSE_RANK():
mysql> SELECT day_walked, burned_calories,
-> DENSE_RANK() OVER(ORDER BY burned_calories DESC) AS position,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE MONTHNAME(day_walked) = 'July'
-> AND trail_hiked = 'West Boundary';
| day_walked | burned_calories | position | trail_hiked |
| 2018-07-24 | 386.4 | 1 | West Boundary |
| 2018-07-25 | 379.9 | 2 | West Boundary |
| 2018-07-22 | 378.3 | 3 | West Boundary |
| 2018-07-27 | 378.3 | 3 | West Boundary |
| 2018-07-06 | 375.7 | 4 | West Boundary |
| 2018-07-11 | 375.2 | 5 | West Boundary |
| 2018-07-16 | 368.6 | 6 | West Boundary |
| 2018-07-18 | 368.1 | 7 | West Boundary |
| 2018-07-30 | 361.6 | 8 | West Boundary |
| 2018-07-31 | 359.9 | 9 | West Boundary |
| 2018-07-08 | 351.6 | 10 | West Boundary |
| 2018-07-29 | 348.7 | 11 | West Boundary |
| 2018-07-04 | 342.8 | 12 | West Boundary |
| 2018-07-17 | 339.4 | 13 | West Boundary |
| 2018-07-19 | 339.2 | 14 | West Boundary |
| 2018-07-09 | 336.0 | 15 | West Boundary |
| 2018-07-12 | 325.9 | 16 | West Boundary |
| 2018-07-03 | 323.7 | 17 | West Boundary |
| 2018-07-23 | 322.9 | 18 | West Boundary |
19 rows in set (0.00 sec)
Il pareggio rimane, tuttavia, la numerazione è diversa in cui le righe vengono contate , proseguendo con i risultati rimanenti.
Laddove RANK() ha iniziato il conteggio con 5 dopo i pareggi, DENSE_RANK() riprende al numero successivo, che in questo caso è 4, poiché il pareggio è avvenuto alla riga 3.
Sarò il primo ad ammettere che questi vari modelli di classificazione delle righe sono piuttosto interessanti, ma come puoi usarli per un set di risultati significativo?
ClusterControlSingle Console per l'intera infrastruttura di databaseScopri cos'altro c'è di nuovo in ClusterControlInstalla ClusterControl GRATISUn pensiero bonus
Devo dare credito dove il credito è dovuto. Ho imparato così tanto sulle funzioni delle finestre da una meravigliosa serie su YouTube e un video, in particolare, mi ha ispirato per questo prossimo esempio. Tieni presente che gli esempi di quella serie sono dimostrati con un database non open source sistema (non lanciarmi frutta e verdura marce digitali), c'è molto da imparare dai video in generale.
Finora vedo un modello nella maggior parte dei risultati della query che voglio esplorare. Non filtrerò per mese né traccia.
Quello che voglio sapere sono i giorni consecutivi in cui ho bruciato più di 350 calorie. Meglio ancora, i gruppi di quei giorni.
Ecco la query di base da cui inizierò e da cui partirò:
mysql> SELECT day_walked, burned_calories,
-> ROW_NUMBER() OVER(ORDER BY day_walked ASC) AS positional_bound,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE burned_calories > 350;
| day_walked | burned_calories | positional_bound | trail_hiked |
| 2018-06-03 | 389.6 | 1 | Sandy Trail-Drive |
| 2018-06-04 | 394.6 | 2 | Sandy Trail-Drive |
| 2018-06-06 | 384.6 | 3 | Sandy Trail-Drive |
| 2018-06-07 | 382.7 | 4 | Sandy Trail-Drive |
| 2018-06-24 | 392.4 | 5 | House-Power Line Route |
| 2018-06-25 | 362.1 | 6 | West Boundary |
| 2018-06-26 | 380.5 | 7 | West Boundary |
| 2018-07-06 | 375.7 | 8 | West Boundary |
| 2018-07-08 | 351.6 | 9 | West Boundary |
| 2018-07-11 | 375.2 | 10 | West Boundary |
| 2018-07-15 | 382.9 | 11 | House-Power Line Route |
| 2018-07-16 | 368.6 | 12 | West Boundary |
| 2018-07-18 | 368.1 | 13 | West Boundary |
| 2018-07-22 | 378.3 | 14 | West Boundary |
| 2018-07-24 | 386.4 | 15 | West Boundary |
| 2018-07-25 | 379.9 | 16 | West Boundary |
| 2018-07-27 | 378.3 | 17 | West Boundary |
| 2018-07-30 | 361.6 | 18 | West Boundary |
| 2018-07-31 | 359.9 | 19 | West Boundary |
| 2018-08-06 | 357.7 | 20 | West Boundary |
20 rows in set (0.00 sec)
Abbiamo già visto ROW_NUMBER(), ma ora entra davvero in gioco.
Per farlo funzionare (almeno in MySQL) ho dovuto usare la funzione DATE_SUB() poiché essenzialmente, con questa tecnica stiamo sottraendo un numero - il valore fornito da ROW_NUMBER() dalla colonna della data day_walked della stessa riga, che in turno, fornisce una data stessa tramite il calcolo:
mysql> SELECT day_walked AS day_of_walk,
-> DATE_SUB(day_walked, INTERVAL ROW_NUMBER() OVER(ORDER BY day_walked ASC) DAY) AS positional_bound,
-> burned_calories,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE burned_calories > 350;
| day_of_walk | positional_bound | burned_calories | trail_hiked |
| 2018-06-03 | 2018-06-02 | 389.6 | Sandy Trail-Drive |
| 2018-06-04 | 2018-06-02 | 394.6 | Sandy Trail-Drive |
| 2018-06-06 | 2018-06-03 | 384.6 | Sandy Trail-Drive |
| 2018-06-07 | 2018-06-03 | 382.7 | Sandy Trail-Drive |
| 2018-06-24 | 2018-06-19 | 392.4 | House-Power Line Route |
| 2018-06-25 | 2018-06-19 | 362.1 | West Boundary |
| 2018-06-26 | 2018-06-19 | 380.5 | West Boundary |
| 2018-07-06 | 2018-06-28 | 375.7 | West Boundary |
| 2018-07-08 | 2018-06-29 | 351.6 | West Boundary |
| 2018-07-11 | 2018-07-01 | 375.2 | West Boundary |
| 2018-07-15 | 2018-07-04 | 382.9 | House-Power Line Route |
| 2018-07-16 | 2018-07-04 | 368.6 | West Boundary |
| 2018-07-18 | 2018-07-05 | 368.1 | West Boundary |
| 2018-07-22 | 2018-07-08 | 378.3 | West Boundary |
| 2018-07-24 | 2018-07-09 | 386.4 | West Boundary |
| 2018-07-25 | 2018-07-09 | 379.9 | West Boundary |
| 2018-07-27 | 2018-07-10 | 378.3 | West Boundary |
| 2018-07-30 | 2018-07-12 | 361.6 | West Boundary |
| 2018-07-31 | 2018-07-12 | 359.9 | West Boundary |
| 2018-08-06 | 2018-07-17 | 357.7 | West Boundary |
20 rows in set (0.00 sec)
Tuttavia, senza DATE_SUB(), finisci con questo (o almeno l'ho fatto):
mysql> SELECT day_walked AS day_of_walk,
-> day_walked - ROW_NUMBER() OVER(ORDER BY day_walked ASC) AS positional_bound,
-> burned_calories,
-> trail_hiked
-> FROM vw_fav_shoe_stats
-> WHERE burned_calories > 350;
| day_of_walk | positional_bound | burned_calories | trail_hiked |
| 2018-06-03 | 20180602 | 389.6 | Sandy Trail-Drive |
| 2018-06-04 | 20180602 | 394.6 | Sandy Trail-Drive |
| 2018-06-06 | 20180603 | 384.6 | Sandy Trail-Drive |
| 2018-06-07 | 20180603 | 382.7 | Sandy Trail-Drive |
| 2018-06-24 | 20180619 | 392.4 | House-Power Line Route |
| 2018-06-25 | 20180619 | 362.1 | West Boundary |
| 2018-06-26 | 20180619 | 380.5 | West Boundary |
| 2018-07-06 | 20180698 | 375.7 | West Boundary |
| 2018-07-08 | 20180699 | 351.6 | West Boundary |
| 2018-07-11 | 20180701 | 375.2 | West Boundary |
| 2018-07-15 | 20180704 | 382.9 | House-Power Line Route |
| 2018-07-16 | 20180704 | 368.6 | West Boundary |
| 2018-07-18 | 20180705 | 368.1 | West Boundary |
| 2018-07-22 | 20180708 | 378.3 | West Boundary |
| 2018-07-24 | 20180709 | 386.4 | West Boundary |
| 2018-07-25 | 20180709 | 379.9 | West Boundary |
| 2018-07-27 | 20180710 | 378.3 | West Boundary |
| 2018-07-30 | 20180712 | 361.6 | West Boundary |
| 2018-07-31 | 20180712 | 359.9 | West Boundary |
| 2018-08-06 | 20180786 | 357.7 | West Boundary |
20 rows in set (0.04 sec)
Ehi, non sembra poi così male.
Cosa dà?
Eh, la riga con un valore positional_bound di '20180698'...
Aspetta un minuto, questo dovrebbe calcolare un valore di data sottraendo il numero ROW_NUMBER() fornito dalla colonna day_of_walk.
Non so voi, ma non sono a conoscenza di un mese con 98 giorni!
Ma, se ce n'è uno, porta con te le buste paga extra!
Divertimento a parte, questo ovviamente non era corretto e mi ha spinto a (eventualmente) utilizzare DATE_SUB(), che fornisce un set di risultati corretto che mi consente di eseguire questa query:
mysql> SELECT MIN(t.day_of_walk),
-> MAX(t.day_of_walk),
-> COUNT(*) AS num_of_hikes
-> FROM (SELECT day_walked AS day_of_walk,
-> DATE_SUB(day_walked, INTERVAL ROW_NUMBER() OVER(ORDER BY day_walked ASC) DAY) AS positional_bound
-> FROM vw_fav_shoe_stats
-> WHERE burned_calories > 350) AS t
-> GROUP BY t.positional_bound
-> ORDER BY 1;
| MIN(t.day_of_walk) | MAX(t.day_of_walk) | num_of_hikes |
| 2018-06-03 | 2018-06-04 | 2 |
| 2018-06-06 | 2018-06-07 | 2 |
| 2018-06-24 | 2018-06-26 | 3 |
| 2018-07-06 | 2018-07-06 | 1 |
| 2018-07-08 | 2018-07-08 | 1 |
| 2018-07-11 | 2018-07-11 | 1 |
| 2018-07-15 | 2018-07-16 | 2 |
| 2018-07-18 | 2018-07-18 | 1 |
| 2018-07-22 | 2018-07-22 | 1 |
| 2018-07-24 | 2018-07-25 | 2 |
| 2018-07-27 | 2018-07-27 | 1 |
| 2018-07-30 | 2018-07-31 | 2 |
| 2018-08-06 | 2018-08-06 | 1 |
13 rows in set (0.12 sec)
Risorse correlate ClusterControl per MySQL MySQL nel 2018:cosa c'è in 8.0 e altre osservazioni Benchmarking delle prestazioni di MySQL:MySQL 5.7 vs MySQL 8.0 Fondamentalmente, ho avvolto il set di risultati fornito da quella query analitica, sotto forma di una tabella derivata, e l'ho interrogato per:una data di inizio e di fine, un conteggio di ciò che ho etichettato num_of_hikes, quindi raggruppato nella colonna positional_bound, fornendo infine set di gruppi di giorni consecutivi in cui ho bruciato più di 350 calorie.
Puoi vedere nell'intervallo di date dal 24-06-2018 al 26-06-2018, i risultati per 3 giorni consecutivi hanno soddisfatto il criterio di 350 calorie bruciate nella clausola WHERE.
Non male se non lo dico io, ma sicuramente un disco che voglio provare e provare al meglio!
Le funzioni della finestra sono in un mondo a parte. Non ne ho nemmeno graffiato la superficie, ne ho coperti solo 3 in un 'alto livello ' senso introduttivo e forse banale. Tuttavia, si spera che, attraverso questo post, trovi che puoi interrogare dati piuttosto interessanti e potenzialmente approfonditi con un "minimo spoglio ' uso di loro.
Grazie per aver letto.