Database
 sql >> Database >  >> RDS >> Database

Unione di file di dati con Statistica, parte 1

La piattaforma Statistica è classificata tra le prime cinque piattaforme di scienza dei dati dal nuovo rapporto di Gartner per il 2017, "Magic Quadrant for Data Science Platforms" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- piattaforme), precedentemente denominate "Piattaforme di analisi avanzate" nel 2016. L'ampia gamma di funzionalità e un'interfaccia utente grafica (GUI) fornita da Statistica ne fanno uno degli strumenti di data science più comunemente utilizzati.

I file di dati di Statistica sono chiamati Fogli di calcolo , che hanno righe e colonne di dati. Le righe di dati sono chiamate casi e le intestazioni di colonna per i dati sono chiamate variabili . Un problema comune nella preparazione dei dati è che diversi membri del team stanno sviluppando o raccogliendo set di dati separatamente e i set di dati devono essere uniti prima di poter utilizzare il foglio di calcolo. I dati potrebbero trovarsi in più file di dati. Discuteremo come i dati in due diversi file di dati possono essere uniti in un unico file di dati con Statistica.

Statistica supporta diversi tipi di modalità di unione per due file di dati, e questi sono:

  • Concatena: Quando due file di dati vengono concatenati, un file di dati viene preso e aggiunto (o concatenato) sul lato destro dell'altro file di dati.
  • Cartesiano: Crea un prodotto incrociato di due file di dati.
  • Corrisponde ai nomi dei casi: Unisce i casi (righe) di un file con i casi degli altri file facendo corrispondere i nomi dei casi.
  • Variabili di corrispondenza: Unisce le righe di un file di dati con le righe dell'altro file di dati facendo corrispondere i nomi delle variabili.

Inizieremo discutendo della fusione concatenata. Questo tutorial ha le seguenti sezioni:

  • Impostazione dell'ambiente
  • File di dati concatenati
  • Conclusione

Impostazione dell'ambiente

Scarica e installa Statistica Platform. I file di dati di Statistica sono chiamati Spreadsheets (memorizzati con il file .sta suffisso). Creeremo alcuni file di dati di Statistica in questo tutorial. Viene creato un file di dati con File>Nuovo . In Crea nuovo documento , seleziona Foglio di lavoro , come mostrato nella Figura 1.


Figura 1: Selezionando Nuovo foglio di lavoro da creare

Per salvare un file di dati, seleziona File>Salva con nome , come mostrato nella Figura 2.


Figura 2: File>Salva con nome

Concatenazione di file di dati

Innanzitutto, creare i due file di dati da unire. I file di dati da unire in genere hanno lo stesso numero di righe e lo stesso o diverso numero di colonne. Poiché i dati devono essere concatenati, i nomi delle colonne sarebbero in genere diversi. Niente di tutto questo è un requisito; due file di dati potrebbero avere un numero diverso di righe e discuteremo come unire anche un tale insieme di file di dati. L'obiettivo è unire i dati in un file di dati con l'altro in modo che il file di dati 2 venga aggiunto sul lato destro del file di dati 1. Ad esempio, crea un file di dati (chiamato wlslog1.sta ) con intestazioni di colonna (variabili ) indicatore orario , categoria e digitare e i seguenti dati (esempio di dati di registro).

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

Il wlslog1.sta il file di dati è mostrato in Statistica nella Figura 3.


Figura 3: File di dati wlslog1.sta

Crea un altro file di dati (wlslog2.sta ) con intestazioni di colonna nomeserver , codice e msg e aggiungi i seguenti dati (anche dati di registro di esempio).

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

Il wlslog2.sta è mostrato nella Figura 4. Per unire i due file di dati, wlslog1.sta e wlslog2.sta , fai clic sui Dati scheda e seleziona Unisci , come mostrato nella Figura 4.


Figura 4: File di dati wlslog2.sta

A Opzioni di unione viene visualizzata la finestra di dialogo, come mostrato nella Figura 5. Le Variabili la scheda è selezionata per impostazione predefinita. Seleziona Modalità come Concatena . Fai clic sul File 1 per selezionare il file 1 da unire.


Figura 5: Opzioni di unione

Seleziona wlslog1.sta nel Seleziona foglio di lavoro finestra di dialogo (vedere Figura 6). Fai clic su OK . Il wlslog1.sta il file viene aggiunto al File 1 campo. Allo stesso modo, seleziona il 2 file wlslog2.sta .


Figura 6: Selezione di un foglio di calcolo da unire

Non è richiesta altra configurazione. Per impostazione predefinita, viene generato un foglio di lavoro di output e può essere configurato con le Opzioni scheda, come mostrato nella Figura 7. Mantieni le impostazioni predefinite per il foglio di lavoro di output.


Figura 7: Scheda Opzioni

I due file da unire vengono aggiunti al File 1 e File 2 campi, come mostrato nella Figura 8. L'impostazione predefinita per Casi non corrispondenti riempie i file di dati con i valori mancanti, il che implica che i dati vuoti vengono archiviati per la sezione di una riga unita (case ) che non corrisponde da un file di dati all'altro. Fai clic su OK .


Figura 8: File di dati da unire

I due file di dati vengono concatenati, come mostrato nella Figura 9. Il foglio di calcolo risultante ha 6 colonne e 6 righe.


Figura 9: Foglio di lavoro risultante dopo un'unione

Se un foglio di calcolo dovesse avere più righe dell'altro, i due fogli di calcolo verrebbero concatenati allo stesso modo. Ad esempio, aggiungi una riga in più nel foglio di lavoro 1 (wlslog1.sta ) per creare 7 righe, come mostrato nella Figura 10.


Figura 10: Riga extra in wlslog1.sta

Quando concatenato con il 2 foglio di calcolo (wlslog2.sta ), il foglio di calcolo risultante ha una riga aggiuntiva con dati mancanti per le colonne del foglio di calcolo 2 (vedi Figura 11).


Figura 11: Foglio di calcolo unito

Conclusione

In questo tutorial, abbiamo introdotto l'unione di file di dati (chiamati anche fogli di calcolo) in Statistica Platform per la scienza dei dati. Abbiamo discusso di una delle modalità di unione:unione concatenata. In un tutorial successivo, discuteremo dell'unione facendo corrispondere nomi di case e facendo corrispondere variabili.