Простой и эффективный метод удаления дубликатов из таблицы

Отредактировано

Как быстро и просто удалить дубликаты данных в SQL-базе, чтобы избежать ошибок в программном коде, который использует эти данные.

15К открытий23К показов

В целом, удаление дубликатов является важной задачей для поддержания качества и производительности баз данных, а также для предотвращения ошибок в программном коде, который использует эти данные.

В этой короткой статье я хочу поделиться простым способом удаления дубликатов из таблицы. Запрос работает в базах данных MySQL, MariaDB и PostgreSQL. Если вам интересен такой запрос для других СУБД, напишите мне в комментариях.

Все вышеизложенные а также любые другие запросы можно воспроизвести на SQLize.online – онлайн редакторе SQL.

Давайте начнем. Предположим, у нас есть простая таблица с двумя столбцами: id – это первичный ключ и v простое целочисленное значение

			create table tbl (
    id int primary key,
    val int
);

insert into tbl (id, val) values 
(1, 1), (2, 1), (3, 2), (4, 2), (5, 1), (6, 1),
(7, 2), (8, 3), (9, 2), (10, 4), (11, 3);

Приведенный выше код создает таблицу и вставляет несколько значений. Выведем на экран все строки из нашей тестовой таблицы. Как видите, id имеет уникальные значения, но поле val имеет содержит дубликаты:

			SELECT * FROM tbl;
+====+===+
| id | v |
+====+===+
| 1  | 1 |
| 2  | 1 |
| 3  | 2 |
| 4  | 2 |
| 5  | 1 |
| 6  | 1 |
| 7  | 2 |
| 8  | 3 |
| 9  | 2 |
| 10 | 4 |
| 11 | 3 |
+----+---+

Наша задача состоит в том, чтобы удалить строки с поввторяющимися значениями в столбце val и сохранить уникальные значения с минимальным значением идентификатора id.

Для начала попробуем найти дубликаты. Мы можем использовать простое LEFT JOIN таблицы самой с собой по полю val с дополнительным условием для предотвращения объединения идентичных строк (для наглядности дадим алиасы для таблицы и копии):

			select * 
from tbl source_tbl
left join tbl copy_tbl 
    on source_tbl.val = copy_tbl.val and 
       source_tbl.id > copy_tbl.id;

В результате запроса получим следующий результат:

			+====+===+========+========+
| id | val | id   | val    |
+====+===+========+========+
| 1  | 1 | (null) | (null) |
| 2  | 1 | 1      | 1      |
| 3  | 2 | (null) | (null) |
| 4  | 2 | 3      | 2      |
| 5  | 1 | 1      | 1      |
| 5  | 1 | 2      | 1      |
| 6  | 1 | 1      | 1      |
| 6  | 1 | 2      | 1      |
| 6  | 1 | 5      | 1      |
| 7  | 2 | 3      | 2      |
| 7  | 2 | 4      | 2      |
| 8  | 3 | (null) | (null) |
| 9  | 2 | 3      | 2      |
| 9  | 2 | 4      | 2      |
| 9  | 2 | 7      | 2      |
| 10 | 4 | (null) | (null) |
| 11 | 3 | 8      | 3      |
+----+---+--------+--------+

Видно, что уникальные строки с минимальным id имеют (null) в столбцах из copy_tbl. Это происходит потому что для минимального значения id в исходной таблице нет строк соответсвующих условию в таблице копии. Итак, нам нужно оставить строки в которых нет соответствия (уникальные) и удалить. Это можно осуществить следующим запросом:

			delete tbl.*
from tbl
left join t copy_tbl 
    on tbl.val = copy_tbl.val and tbl.id > copy_tbl.id
where copy_tbl.id is not null;

P.S. Уже после написания этой статьи мой коллега @Akina предложил более короткую версию:

			delete tbl.*
from tbl
join t copy_tbl 
    on tbl.val = copy_tbl.val and tbl.id > copy_tbl.id;

Если Вам понравилась статья, Вы можете поддержать автора.

15К открытий23К показов

Также рекомендуем

Как я создала приложение, которое решает, что мне есть

Работать на удалёнке прекрасно, за исключением одного — всё время нужно что-то готовить. А для этого — придумать, что бы такого вкусного тебе хотелось съесть сегодня. Меня зовут Лена Райан, я фронтенд-разработчик в Точка Навыки. Недавно закончила свой новый пет-проект — приложение, которое анализирует, какие продукты уже есть дома, и даёт подсказки, что можно из них сделать. В этой статье рассказываю, с какими сложностями пришлось столкнуться, и что в итоге получилось.

Как защитить pet-проект почти бесплатно, но эффективно

Как эффективно защитить pet-проект: управление секретами, логирование, бэкапы, локальные туннели и другие базовые правила безопасности

Как сеньоры документируют проекты: протокол архитектурных решений

Как сеньоры документируют архитектуру без боли. Обзор подхода ADR: шаблоны, примеры из практики и комментарии экспертов. Ускорьте онбординг и перестаньте объяснять одно и то же.

🔥 PostgreSQL стал лучшей СУБД 2024 года

PostgreSQL признана лучшей СУБД 2024 года по рейтингу DB-Engines благодаря стабильности, производительности и новым возможностям в версии 17