Fuite d'identifiants Collection #1

Un dump agrégé d'identifiants de 87 Go publié sur le service cloud MEGA a exposé 772,9 millions d'adresses e-mail uniques et 21,2 millions de mots de passe uniques, assemblés à partir de milliers de fuites antérieures pour alimenter des attaques de credential stuffing à l'échelle industrielle.

En janvier 2019, le chercheur en sécurité Troy Hunt a divulgué Collection #1 — un dump agrégé d'identifiants de plus de 87 Go réparti sur plus de 12 000 fichiers, publié sur le service de stockage cloud MEGA et partagé sur un forum de piratage populaire. C'était, à l'époque, le plus grand jeu de données jamais chargé dans Have I Been Pwned (HIBP).

Ce qui s'est passé

Collection #1 n'était pas une seule fuite. C'était une compilation — une agrégation constituée à partir de milliers de fuites de données distinctes, certaines remontant à plusieurs années, dédupliquée et formatée dans un seul but : le credential stuffing à grande échelle. Le credential stuffing est une attaque automatisée dans laquelle des paires identifiant/mot de passe volées sur un service sont rejouées contre de nombreux autres, exploitant l'habitude répandue de la réutilisation des mots de passe.

Le jeu de données contenait 2 692 818 238 lignes, qui se réduisaient après déduplication à 1 160 253 228 combinaisons uniques d'e-mail et de mot de passe, 772 904 991 adresses e-mail uniques et 21 222 975 mots de passe uniques. Les mots de passe en clair sont ce qui rendait l'ensemble particulièrement dangereux — contrairement à un dump de mots de passe hachés, ceux-ci étaient immédiatement exploitables.

Ampleur et nouveauté

Lorsque Hunt a chargé les données dans HIBP :

Environ 140 millions d'adresses e-mail étaient jusque-là inconnues du service.
Environ 10,6 millions de mots de passe (environ la moitié) étaient nouveaux dans le corpus Pwned Passwords.

Collection #1 a été rapidement suivie par les Collections #2 à #5, une famille de dumps apparentés totalisant environ 2,2 milliards d'enregistrements et 845 Go, circulant dans les mêmes forums et écosystèmes de torrents. Ensemble, elles représentaient l'une des plus grandes concentrations d'identifiants compromis jamais assemblées en une seule distribution.

Attribution

En février 2019, la société de renseignement sur les menaces Recorded Future a attribué la compilation sous-jacente à un acteur malveillant opérant sous le pseudonyme « C0rpz », qui avait créé et vendu Collection #1 ainsi qu'environ 611 millions d'identifiants supplémentaires. L'agrégation et la revente de données issues de fuites constituent un marché criminel mature ; Collection #1 était un instantané de cette chaîne d'approvisionnement plutôt que le produit d'une seule intrusion.

Impact

Parce que Collection #1 était une agrégation, il n'y avait aucune victime d'entreprise unique ni perte financière directe et quantifiable attribuable à une organisation. Le préjudice était diffus mais réel : tout compte dont les identifiants figuraient dans le dump — et qui réutilisait ces identifiants ailleurs — courait un risque immédiat de prise de contrôle. La fraude par prise de contrôle de compte, la compromission de messagerie d'entreprise et le hameçonnage en aval s'appuient tous précisément sur ce type d'approvisionnement consolidé en identifiants.

Pourquoi c'est important

Collection #1 est l'illustration canonique de la raison pour laquelle la réutilisation des mots de passe est catastrophique et pour laquelle le credential stuffing figure parmi les attaques les plus rentables pour les criminels. Elle a accéléré l'adoption par l'industrie du filtrage des mots de passe compromis (contre des corpus comme Pwned Passwords de HIBP), de l'authentification multifacteur et des passkeys. Pour les défenseurs, elle a redéfini l'exposition des identifiants comme une condition continue et cumulative — les anciennes fuites n'expirent jamais ; elles sont indéfiniment recombinées, redistribuées et rejouées.

Chronologie

2008-2015

Les fuites constitutives de Collection #1 se produisent sur des milliers de sites et services distincts sur plusieurs années.

7 janvier 2019

Un utilisateur de forum publie sept liens vers des bases de données hébergées sur le service cloud MEGA sous le dossier nommé « Collection #1 ».

16 janvier 2019

Le chercheur en sécurité Troy Hunt divulgue publiquement Collection #1 et l'intègre à Have I Been Pwned — le plus grand jeu de données ajouté à HIBP à cette date.

1 janvier 2019

Le dossier MEGA est supprimé, mais le jeu de données a déjà largement circulé sur les forums de piratage.

1 janvier 2019

Des collections suivantes (#2 à #5), totalisant environ 2,2 milliards d'enregistrements et 845 Go, sont identifiées en circulation dans le même écosystème.

1 février 2019

Recorded Future attribue la compilation originale à un acteur malveillant connu sous le pseudonyme « C0rpz », qui l'a créée et vendue avec des dumps associés.

Sources

troyhunt.comhttps://www.troyhunt.com/the-773-million-record-collection-1-data-reach/

en.wikipedia.orghttps://en.wikipedia.org/wiki/Collection_No._1

recordedfuture.comhttps://www.recordedfuture.com/research/collection-1-data-breach

securityaffairs.comhttps://securityaffairs.com/80008/data-breach/collection-1-data-leak.html

Incidents liés

Bourrage d’identifiantsEn cours17 juin 2026

FortiBleed : un jeu de données fuite les identifiants VPN de ~74 000 pare-feu Fortinet

Un jeu de données baptisé FortiBleed a exposé des identifiants VPN Fortinet FortiGate valides — mots de passe en clair compris — pour 73 932 URL de pare-feu réparties dans 194 pays, fruit d'un groupe russophone qui a réutilisé des mots de passe issus de fuites antérieures et de journaux d'infostealers plutôt qu'une nouvelle vulnérabilité Fortinet.

Victim: Organizations running Fortinet FortiGate firewalls worldwide

Bourrage d’identifiantsContenu30 mai 2024

Campagne de credential-stuffing contre les comptes clients Snowflake (UNC5537, 2024)

Un cluster malveillant suivi sous le nom d'UNC5537 / ShinyHunters a utilisé des identifiants collectés par des logiciels infostealers pour se connecter à environ 160 tenants clients Snowflake dépourvus de MFA. Parmi les victimes : AT&T, Ticketmaster, Santander, LendingTree, Advance Auto Parts, Neiman Marcus et Bausch Health. Ticketmaster à elle seule a exposé les données d'environ 560 millions d'utilisateurs.

Victim: Tenants clients de Snowflake (~160 organisations : AT&T, Ticketmaster, Santander, LendingTree, Advance Auto Parts, Neiman Marcus, Bausch Health, etc.)
Records: 560.0M

Bourrage d’identifiantsRésolu20 octobre 2023

Compromission du système de gestion des dossiers de support d'Okta

Un acteur malveillant a utilisé l'identifiant volé d'un compte de service — exposé via le compte Google personnel d'un employé — pour accéder au système de gestion des dossiers de support client d'Okta, lisant des fichiers HAR contenant des jetons de session et permettant le détournement de session contre des clients dont 1Password, BeyondTrust et Cloudflare.

Victim: Okta

Bourrage d’identifiantsRésolu6 octobre 2023

Violation de données 23andMe par credential stuffing

Des attaquants ont utilisé des identifiants réutilisés issus de fuites antérieures pour accéder à des comptes 23andMe, puis ont exploité la fonctionnalité « DNA Relatives » pour collecter des données de généalogie et de profils génétiques de 6,9 millions d'utilisateurs à partir des connexions de proches compromis.

Victim: 23andMe Holding Co.
Loss: $50.0M
Records: 6.9M