Mysql
 sql >> Database >  >> RDS >> Mysql

MYSQL Deduplica e rimuovi la riga duplicata con meno dati

Potresti usare questa query DELETE, che è generica e può essere facilmente adattata per supportare più campi:

DELETE tablename.*
FROM
  tablename LEFT JOIN (
    SELECT MIN(id) min_id
    FROM
      tablename t INNER JOIN (
        SELECT
          emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
        FROM
          tablename
        GROUP BY
          emails) m
      ON t.emails=m.emails
         AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
    GROUP BY
      t.emails) ids
  ON tablename.id=ids.min_id
WHERE
  ids.min_id IS NULL

Si prega di vedere violino qui .

Questa query restituisce il numero massimo di campi non nulli, per ogni email:

SELECT
  emails,
  MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
FROM
  tablename
GROUP BY
  emails

Mi unisco quindi a questa query con nometabella, per ottenere l'ID minimo per ogni email che ha il numero massimo di campi non nulli:

SELECT MIN(id) min_id
FROM
  tablename t INNER JOIN (
    SELECT
      emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
    FROM
      tablename
    GROUP BY
      emails) m
  ON t.emails=m.emails
     AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
GROUP BY
  t.emails

e quindi elimino tutte le righe che hanno un ID che non viene restituito da questa query.