Mysql
 sql >> Database >  >> RDS >> Mysql

Configura database di grandi dimensioni in MySQL per l'analisi in R

La documentazione per RMySQL è abbastanza buona, ma presuppone che tu conosca le basi di SQL. Questi sono:

  • creazione di un database
  • creazione di una tabella
  • ottenere i dati nella tabella
  • ottenere dati dalla tabella

Il passaggio 1 è semplice:nella console MySQL, è sufficiente "creare database DBNAME". Oppure dalla riga di comando, usa mysqladmin oppure ci sono spesso GUI di amministrazione MySQL.

Il passaggio 2 è un po' più difficile, poiché devi specificare i campi della tabella e il loro tipo. Ciò dipenderà dal contenuto del tuo file CSV (o altro delimitato). Un semplice esempio potrebbe assomigliare a:

use DBNAME;
create table mydata(
  id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  height FLOAT(3,2)
); 

Che dice di creare una tabella con 2 campi:id , che sarà la chiave primaria (quindi deve essere univoca) e si incrementerà automaticamente man mano che vengono aggiunti nuovi record; e altezza , che qui è specificato come float (un tipo numerico), con 3 cifre in totale e 2 dopo il punto decimale (es. 100.27). È importante comprendere i tipi di dati .

Passaggio 3:esistono vari modi per importare i dati in una tabella. Uno dei più semplici è usare mysqlimport utilità. Nell'esempio sopra, supponendo che i tuoi dati siano in un file con lo stesso nome della tabella (mydata), la prima colonna un carattere di tabulazione e la seconda la variabile di altezza (senza riga di intestazione), questo funzionerebbe:

mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata

Passaggio 4:è necessario sapere come eseguire query MySQL. Ancora un semplice esempio:

select * from mydata where height > 50;

Significa "recupera tutte le righe (id + altezza) dalla tabella mydata in cui l'altezza è superiore a 50".

Dopo aver imparato queste nozioni di base, puoi passare a esempi più complessi come la creazione di 2 o più tabelle e l'esecuzione di query che uniscono i dati di ciascuna.

Quindi - puoi passare al manuale di RMySQL. In RMySQL, si configura la connessione al database, quindi si utilizza la sintassi della query SQL per restituire le righe dalla tabella come frame di dati. Quindi è davvero importante ottenere la parte SQL:la parte RMySQL è facile.

Ci sono un sacco di tutorial MySQL e SQL sul Web, incluso il tutorial sul sito Web MySQL. Basta cercare su Google "mysql tutorial".

Personalmente, non considero affatto 80 Mb un set di dati di grandi dimensioni; Sono sorpreso che questo stia causando un problema con la RAM e sono sicuro che le funzioni R native possano gestirlo abbastanza facilmente. Ma è bene apprendere nuove abilità come SQL, anche se non ti servono per questo problema.