Hacker des Genoms haben gezeigt, dass keine DNA anonym ist

Ursprünglicher Autor: Megan Molteni
  • Übersetzung

Im Jahr 2013 schockierte Yaniv Ehrlich, ein junger Spezialist für Computational Biology, die Forschergemeinschaft, indem er zeigte, wie man die Identität der Personen, die in der anonymen genetischen Datenbank aufgeführt sind, nur über die Internetverbindung aufdeckt . Die Regulierungsbehörden reagierten, indem sie den Zugang zu anonymen biomedizinischen genetischen Datensätzen einschränkten. Ein Sprecher der National Institutes of Health sagte dann: "Die Chancen, dass dies passieren wird, sind für die meisten Menschen gering, wenn auch nicht gleich Null."

Schnell vorwärts in fünf Jahren, und wir stellen fest, dass die Menge an Informationen, die in digitalen Datenbanken gespeichert sind, explosionsartig zugenommen hat und dass sich dieses Wachstum nicht verlangsamen wird. Verbraucherunternehmen wie 23andMe und Ancestry haben nach jüngsten Schätzungen genetische Profile für mehr als 12 Millionen Menschen erstellt . Benutzer, die ihre Informationen heruntergeladen haben, können sie optional zu öffentlichen genealogischen Websites hinzufügen, beispielsweise GEDmatch, das in diesem Jahr durch seine Rolle bei der Angriffe der Polizei auf den Verdächtigen im "Killer-Staat des Goldenen Staates" Bekanntheit erlangte.

Diese sich kreuzenden Stammbäume, die Menschen durch Teile der DNA vereinigen, sind bereits so stark gewachsen, dass sie dazu verwendet werden können, die Hälfte der US-amerikanischen Bevölkerung zu lokalisieren. Laut einer neuen Studie von Ehrlich, die im Oktober 2018 in der Zeitschrift Science veröffentlicht wurde, können mehr als 60% der Amerikaner mit europäischen Wurzeln anhand ihrer DNA anhand offener Genealogiedatenbanken identifiziert werden, unabhängig davon, ob sie ihre DNA dorthin geschickt haben.

"Als Ergebnis stellt sich heraus, dass es egal ist, ob Sie die Analyse bestanden haben oder nicht", sagt Erlich, Chefforscher bei MyHeritage, dem drittgrößten Unternehmen für Genetik von Konsumenten, nach 23and Me und Ancestry. "Sie können identifiziert werden, weil die Datenbanken bereits den größten Teil der Vereinigten Staaten abdecken, insbesondere die europäischen Ursprungs."

Um diese Einschätzungen abzuleiten, analysierten Erlich und seine Kollegen von der Columbia University und der Hebrew University in Jerusalem die MyHeritage-Datenbank, die 1,28 Millionen anonyme Benutzer enthält, die größtenteils weißhäutig sind, wie die überwiegende Mehrheit der genetischen Datenbanken der Welt. In Bezug auf jeden Benutzer als "Ziel" zählten sie die Anzahl seiner Verwandten mit großen Anteilen an übereinstimmender DNA und fanden heraus, dass 60% der Suchanfragen mindestens seinen zweiten Cousin fanden. Die Ermittler für die Suche nach "dem Mörder des Goldenen Staates" und die Offenlegung von weiteren 17 Fällen erforderten nur ein Maß an Verwandtschaft, das in der Strafverfolgung als "Suche nach entfernten Verwandten" bekannt ist.

Die Analyse ergab eine Liste von ungefähr 850 Personen, abhängig von der Fruchtbarkeit der Vorfahren des Objekts. Von diesem Ausgangspunkt aus können Sie grundlegende demografische Informationen schnell reduzieren. Öffentliche Archive, aus denen der Wohnort einer Person mit einer Genauigkeit von 160 km besteht, reduzieren die Anwerbung von Kandidaten um die Hälfte. Alter bis fünf Jahre schließt 9 von 10 Personen aus. Gender, das auf der Grundlage der Genetik ermittelt werden kann, reduziert die Liste auf etwa 16 Personen. Ein genaues Geburtsjahr kann einen oder zwei Kandidaten hinterlassen.

Um die Leichtigkeit des Prozesses zu demonstrieren, wählten die Forscher eine anonyme Frau aus dem 1000 Genomes Project - ein Projekt mit offenen Genomcodes -, die mit einem Mann verheiratet war, den Erlich zuvor in seiner populären Arbeit aus dem Jahr 2013 identifiziert hatte. Sie formatierten die Daten auf ihrer DNA neu, sodass sie den Daten eines typischen Online-Service-Clients ähnelten, und luden sie zu GEDmatch hoch. Der Dienst fand zwei Verwandte, einen in North Dakota und einen in Wyoming. Aus dem Zufall folgte ihre entfernte Verwandtschaft innerhalb von 4-6 Generationen. Nach einer Stunde durch die öffentlichen Archive erkannte das Team ihren Mann und ihre Frau. Darauf basierend verfolgten die Forscher die Genealogie von Hunderten von Nachkommen und berechneten die Identität ihrer Ziele. Es hat einen Tag gedauert.

Erlich glaubt, dass der Tag nicht mehr weit ist, wenn eine solche Suche an einer Person durchgeführt werden kann, die ihre DNA irgendwo verlassen hat. Die Studie ergab, dass, wenn die genetische Datenbank etwa 2% der erwachsenen Bevölkerung einer ethnischen Bevölkerung umfasst, nur ein zweiter Cousin in der Lage ist, für fast jede Person eine Übereinstimmung zu finden. Die Probenbasis ist für Menschen, deren Vorfahren Amerikaner oder Europäer waren, reicher, und für sie ist dieser Meilenstein innerhalb weniger Jahre erreichbar, wenn das Interesse an unterhaltsamen DNA-Tests auf demselben Niveau bleibt. Nach der jüngsten US-Volkszählung werden zwei Prozent der Bevölkerung nur vier Millionen sein.

Eine solche Ressource wird die Zahl und Vielfalt der Verdächtigen erheblich erhöhen, zu deren Daten Strafverfolgungsbehörden während der Ermittlungen zur Verfügung stehen werden. Die Datenbanken der Rechtsverletzer, in denen die Polizei DNA von fast 17 Millionen Menschen speichert, sind verurteilte Straftäter, und in einigen Staaten und nur Personen, die festgenommen wurden, enthalten sie hauptsächlich Daten über Schwarze und Lateinamerikaner. Seit den Anfängen des DNA-Tests haben technologische Inkompatibilitäten verschiedener Methoden eine Mauer zwischen Datenbanken von Kriminellen und Datenbanken von Personen geschaffen, die DNA für Unterhaltungs- oder Forschungszwecke spenden. Strafverfolgungsbeamte sammeln und analysieren hochvariable, nicht kodierende Teile des Genoms und zählen die Anzahl der Wiederholungen der "Junk" -Teile der DNA. Es ist tatsächlich nur eine Folge von Zahlen und sagt nichts über die Persönlichkeit einer Person aus. Es ist jedoch für jede Person einzigartig, etwa ein Barcode oder ein Fingerabdruck. Auch diese Methode ist schnell und günstig - ideal für polizeiliche Zwecke.

Medizinische und unterhaltsame DNA-Aufzeichnungen umfassen ein vollständiges Transkript oder Arrays von Genotypen - eine Reihe von Änderungen, die an einer Stelle eines Gens auftreten. Dies ist ein einzelner Nukleotidpolymorphismus (SNP), der für die Tatsache verantwortlich ist, dass Sie grüne Augen oder lockiges Haar oder eine Prädisposition für Herzkrankheiten haben. Es ist auch viel nützlicher, um Verwandte zu finden. Da diese beiden Arten von Datenbanken nicht miteinander verwandt sind, musste ich im Fall des „Golden State Killer“ DNA aus alten Proben extrahieren, ein SNP-Profil erstellen und in GEDmatch hochladen. Aber jetzt ist auch das nicht mehr nötig.

In einem weiteren im Oktober in der Zeitschrift Cell veröffentlichten Artikel wurde erstmals gezeigt, wie entfernte Verwandte anhand von Daten aus Datenbanken von Kriminellen gesucht werden können. Die Noah Rosenberg-Gruppe von der Stanford University hat bereits gezeigt, dass es möglich ist, Datensätze in diesen beiden Basen zu verknüpfen, indem die nächstgelegenen SNPs mit nicht kodierenden Wiederholungen verglichen werden. Die Arbeit wurde im letzten Jahr veröffentlicht und erregte nicht viel Aufmerksamkeit. „Stille“, sagt Rosenberg. Seine jüngste Arbeit, die die Kreuzkompatibilität zweier Datenbanken untersucht, hat jedoch im Hinblick auf den Fall des "Killers des Goldenen Staates" bereits eine neue Bedeutung erhalten.

"Dieser Weg kann die Reichweite der forensischen Genetik erweitern und möglicherweise dazu beitragen, noch mehr alte Fälle zu lösen", sagt Rosenberg. "Gleichzeitig wird er die Daten der Teilnehmer in diesen Datenbanken bei Durchsuchungen im Zusammenhang mit der Aufklärung von Straftaten offenlegen, die sie wahrscheinlich nicht erwartet hätten."

Juristische Experten betrachten es als ein größeres Problem, dass Rosenbergs Arbeiten dazu führen, dass das in polizeilichen Datenbanken gespeicherte DNA-Profil mehr Informationen enthält als bisher angenommen. Es kann verwendet werden, um die kodierenden Regionen des Genoms genau vorherzusagen - diejenigen, die mit grünen Augen, lockigem Haar und Herzproblemen assoziiert sind. "Alle Entscheidungen des Obersten Gerichtshofs zur Tatsache, dass die bestehenden Datenbanken von Kriminellen nicht gegen den Vierten Zusatz verstoßenIch gehe davon aus, dass aus dieser Junk-DNA nichts extrahiert werden kann “, sagt Andrea Roth, Direktor des Center for Law and Technology der University of California in Berkeley. "Und jetzt kommt alles im Staub."

Rosenberg hat mit der Arbeit keine Software veröffentlicht, daher dauert es einige Zeit, um echte Berechnungen durchzuführen. Er sagt jedoch, dass jeder, der Zugriff auf mehrere Datenbanken hat, über alle erforderlichen Informationen verfügt, um diese Technologie einsetzen zu können. Dies bedeutet, dass der integrierte Datenschutz ziemlich schnell fallen kann. Die Arbeit ist als Warnung gedacht, um den Regulierungsbehörden die Fähigkeiten moderner Technologien aufzuzeigen, und Rosenberg hofft, dass es eine längst überfällige Diskussion über die Speicherung und Verwendung genetischer Informationen beginnen wird.

Ehrlich ua entwickelten sich noch weiter mit Empfehlungen für die notwendigen Änderungen für GEDmatch-Ressourcen, die einen wichtigen Service für Menschen darstellen, die nach vermissten Angehörigen suchen, und für Adoptivkinder, die nach leiblichen Eltern suchen, online bleiben und in Sicherheit sind. Sie forderten das US-Ministerium für Gesundheit und menschliche Dienste auf, den Gesundheitsinformationsrahmen für persönliche Informationen zu überprüfen und unpersönliche Genome aufzunehmen. Sie beschrieben eine Verschlüsselungsstrategie, die eine Kette von Informationssicherheit bilden kann, sodass Datenbanken Benutzer kennzeichnen können, die versuchen, die genetischen Daten anderer Personen zu analysieren. Aber selbst wenn absolut alle Unternehmen, die Dienstleistungen im Zusammenhang mit Genomen anbieten, in dieses System hineingezogen werden, reicht dies möglicherweise nicht aus.

"Ich denke, das Ergebnis ist, dass jetzt alle Menschen unter der genetischen Überwachung stehen, wenn wir nicht die Fähigkeit der Regierung regulieren, genetische Suchen durchzuführen", sagt Roth. Er schlägt ein System vor, das der kalifornischen Regelung der traditionelleren Suche nach Angehörigen in kriminellen Datenbanken ähnelt. Sie können nur zur Untersuchung von Gewaltdelikten - Mord, Gewalt - verwendet werden, und der Umfang der Suche ist begrenzt, um keine Informationen über Hunderte unschuldiger Menschen mit einzubeziehen. Es gibt Aufsichtskommissionen, die die unachtsame Offenlegung sensibler Informationen verhindern können, wenn sich herausstellt, dass der Vater von jemandem kein biologischer Vater ist. "Das ist alles Ironie", sagt Roth. - Wenn sich Ihr Verwandter in der CODIS-Datenbank befindet [kriminelle Basis], Sie haben mehr Rechte an der genetischen Privatsphäre, als wenn Sie in GEDMatch einen Verwandten haben. “ Aber mit genug DNA ist es egal, ob man gefunden werden will oder nicht. Verzichtserklärungen werden nicht mehr akzeptiert.

Jetzt auch beliebt: