Juan Antonio Calles & Patricia Rada - Biohacking: Almacenando información en el ADN de bacterias [rooted2018]

BIOHACKING ALMACENANDO INFORMACIÓN
EN EL ADN DE BACTERIAS
Patricia Rada
Juan Antonio Calles

$> whoami
▪ Dra. Patricia Rada
▪ Doctora en Bioquímica, Biología
Molecular y Biomedicina
▪ Investigadora Postdoctoral Juan de la Cierva

$> whoami
▪ Dr. Juan Antonio Calles
▪ Doctor, Doble Postgrado e Ingeniero en Informática
▪ CEO de ZEROLYNX

Verano de 2017…
Shipman, S. L. et al. 2017

Gran repercusión mediática
1. https://www.elconfidencial.com/tecnologia/ciencia/2017-07-12/pelicula-
almacen-adn-bacteria_1413854/
2. https://www.nature.com/nature/journal/v547/n7663/full/nature23017.ht
ml
3. https://thehackernews.com/2017/08/hacking-computer-with-dna.html
4. https://www.wsj.com/articles/malware-stored-in-synthetic-dna-can-take-
over-a-pc-researchers-find-1502337660
5. https://blogs.protegerse.com/2017/08/10/consiguen-ocultar-malware-en-
el-adn-nuevo-vector-de-ataque-o-simple-prueba-de-concepto/

Empecemos desde lo más básico…
Imagen: Planeta de Agostini

Empecemos desde lo más básico… ¿Qué es el ADN?
▪ Contiene las instrucciones genéticas
necesarias para el desarrollo y
funcionamiento de todos
los organismos vivos.
▪ Función: almacenamiento a largo
plazo de información para construir
diversos componentes de las células.
▪ La información genética va codificada
por 4 bases nitrogenadas: C, G, A y T.
Imagen: http://www.chilebio.cl/?page_id=500

¡Son los 0 y 1 de vuestro lenguaje!
Imagen: lavanguardia.com

¿El ADN es estable?
▪ En 1988, se secuenció con éxito ADN de restos humanos
con 7000 años de antigüedad.
▪ En los 2000, la tecnología ha permitido leer el material
genético de bacterias cristalizadas hace 250 millones de años.
Sistema robusto de almacenamiento de datos resistente al
paso del tiempo.

Núcleo celular vs Disco duro
CARACTERÍSTICAS NÚCLEO CELULAR (ADN) DISCO DURO (ARCHIVOS)
FUNCIÓN
Almacenamiento y conservación
del material genético.
Almacenamiento y conservación
de archivos.
POSIBLES ALTERACIONES
Mutaciones por radiación,
infecciones.
Daños por radiación, altas
temperaturas, malware…
RECUPERACIÓN DE DATOS
Replicación celular y mecanismos
de reparación.
Extracción forense, backups,
redundancia, …
CAPACIDAD DE
ALMACENAMIENTO
455 exabytes por gramo de ADN
(dato aún sólo teórico)
60 TB (Seagate)
Imagen: rdnattural.es y xataka.com

Límite teórico de almacenamiento en ADN
• 455 exabytes por gramo
• Todo Internet en 2020 podría almacenarse
en 90 gramos de ADN
Dibujo de Ramón y Cajal
3.300 millones
de bases/célula
3.6 picogramos
ADN
200 gramos de
ADN en nuestro
interior

Primer intento de almacenamiento de datos en bacterias
• Año 1988.
• “Microvenus” de Joe Davis.
• Una runa germánica que significa tanto "mujer"
como "vida").
• Bacteria modificada genéticamente para codificar
un icono de 35 bits que representa la
superposición de las letras “Y” e “I”.

Primer intento de almacenamiento de datos en bacterias
• Se codifica en binario basándose en un código de equivalencias con
las 4 bases que componen el código genético.
• Se traduce el mensaje a un fragmento de ADN que podemos
construir sintéticamente e introducirlo en la bacteria.
Davis et al. 1996

El verdadero problema hasta la actualidad…
▪ …era la dificultad de escribir y leer grandes secuencias de ADN con precisión.
▪ …crear sistemas vivos que pudieran almacenar grandes cantidades de ADN
sintético.
▪ En la última década, se han perfeccionado los métodos de síntesis a gran
escala de ADN y de secuenciación de forma masiva.
1986. Primer
Secuenciador
ABI 370
2014.
Illumina
HiSeqX
1 billón
lecturas/día
Imagen: medicalexpo.es

2012: Avances
▪ Para convertir este archivo HTML en secuencia de ADN,
asignaron el binario 0 a las bases A o C, y el binario 1 a las bases
G o T del ADN.
▪ De manera que, por ejemplo, la secuencia binaria 001100
correspondería, entre otras, a la secuencia génica ACGTCA.
Church, G. M. et al 2012
11
53.426
1
5,27 MB54.898
Moléculas

Un paso de gigante. Tecnología CRISPR.
Francis Mójica
E. Charpentier y J. Doudna
(Premio Princesa de Asturias 2015)
Imágenes: Nature.com y elpais.es

Nuestra herramienta: ¿Qué es un protospacer?
Imagen: http://mortlockcrispr.blogspot.com.es/2014/05/crispr-genomic-target-structure.html

AAGCCCT GGGCCCCCGGGG….
El caso más sencillo. Imagen de 4 colores.
C = 00
T = 01
A = 10
G = 11
Pixet 1
00000001  Posición en la imagen
01000101 01101110 00100000 01100010
01110010 01100101 01110110 01100101
00100000 01101110 01110101 01100101
Secuenciación del ADN, decodificación y
reconstrucción de la imagen original
PAM Hasta 28 bases de longitud
Escherichia coliImagen: wikia.com

Imagen de 21 colores. Codificación por tripletes.
AAGCCCT GGT CAG CTG AGA TAG GCT GTT CGA CAG T
PixetPAM
Imagen modificada de Shipman, S. L. et al. 2017
9 10 8 2 15 7 6 7 10
¿43 = 64 combinaciones?  ¡Imposible!
% de bases GC ≈ 50%
Repetición bases ≤ 3
Imagen original Imagen recuperada

Un paso de gigante
Animación stop-motion de un jinete montando un caballo a galope,
realizada por el fotógrafo inglés Eadweard Muybridge (Human and Animal Locomotion, 1878)

Creación de un GIF de 5 imágenes.
Imagen 1Imagen 2Imagen 3
Las secuencias se introducen en 5 días consecutivos por electroporación:
ADN bacteriano
Seahyoung et al, 2015; Shipman et al. 2017
Imágenes reconstruidas:
≈5K lecturas
≈1M lecturas
Exactitud >90 %

Protocolo de almacenamiento actual
Colores 4 21 21x5 frames
Codificacion 1 base/color 3 bases/color 3 bases/color
Código degenerado No Sí Sí
Almacenamiento 784 bytes 494 bytes 3.6 KB (total)
Protospacers 112 100 104/frame
Exactitud 88 % 96 % > 90 %
PAM Pixet 28 bases
AAG CCCT GGTCAGCTGAGATAGGCTGTTCGACAGT

Posibles mejoras de la técnica
▪ Desde el punto de vista bioquímico conocemos las
limitaciones del sistema.
▪ Pero desde el punto de vista informático, existen posibles
mejoras a nivel de compactación e integridad de los datos.
Imagen: mercadolibre.com

El protocolo podría ser mejorado mediante automatización
▪ Pero existen una serie de limitaciones:
▪ 35 bases por secuencia introducida
▪ No más de 4 bases repetidas
▪ % de C y G en torno al 50%
▪ Inicio mediante marcador (AAG)
▪ Contador para identificar la bacteria escrita/leída
Imagen; josemariagomariz.com

Hemos desarrollado el software Bacter10 v1.0
▪ Permite convertir un texto o archivo a bases de ADN.
▪ Genera las bases que deben almacenarse en cada protospacer.
▪ Calcula automáticamente el mejor diccionario, calculando que
las bases C y G sean ≈ 50%.
▪ Descarta más de 4 repeticiones de bases.
▪ Como ej. usamos ASCII Extendido, pero es escalable a otras
codificaciones.

How it works
Hola RootedCon! 072111108097082111111116101100067111110033
A C T G
A C T G
A T C G
…
C G T C
AAAC
AAAT
AAAG
AACA
…
GGGA
072 111 108 097
082 111 111 116
101 100 067 111
110 033
AAAG GCTA GGTA
CCAG ... TGCA
1 2
3
4
5
67

AAG AAATG TGCC ACGT TGAA TGAC AGCC TTAC
AAG AAATC CGCC TGAA ACGT TGAC AGCC TGAC
AAG AAATA ATCC ACGT TGAA TGAC TTAC AGCC
AAG AATAA CCGC ACGT TGAA TGAC AGCC GGAC
Nuestra técnica en Bacter10 v1.0
AAG AAATG TGCC ACGT TGAA TGAC AGCC TTAC
MARCADOR CONTADOR DATOS
PROTOSPACER
8

¿Cuántos caracteres podemos codificar?
▪ Tuplas de 4  44 = 256 caracteres
▪ Tuplas de 5  45 = 1K caracteres
▪ Se deben descartar las
cadenas con más de 3
bases iguales, por ej.
AAAA.
▪ Por lo que para codificar
ASCII EXTENDIDO (256
símbolos), con tuplas de 4
bases es imposible.
▪ Necesitaremos tuplas de 5
bases o más, o
simplemente, no codificar
los últimos 4 símbolos de
ASCII, porque se deben
descartar las bases AAAA,
CCCC, GGGG y TTTT.

Bacterio v1.0: Ejecución de tuplas de 4 bases

Posibilidades de almacenamiento con Tuplas diferentes
Tamaño de
Tupla
Tuplas
posibles
(símbolos)
Bases
almacen.
Protosp.
usados
CGs %
medio
Desviación
media CGs
Tiempo
Ejec. (s)
4 6 24 17 49,51 13,02 0,38
5 5 25 20 50,24 10,55 1,68
6 4 24 25 49,48 10,52 6,08
7 3 21 34 48,56 12,93 25,67
8 3 24 34 48,85 9,74 139,85
9 3 27 50 49,62 7,91 539,05
Resultados obtenidos tras la codificación de
10.000 ficheros de 100 bytes

Análisis estadístico de 10.000 archivos de 100 bytes
0,38 1,68 6,08
25,67
139,85
539,05
0
100
200
300
400
500
600
4 5 6 7 8 9
Tiempo(s)
Tuplas (bases)
Tiempo de ejecución (s)
13,02
10,55
10,52
12,93
9,74
7,91
0
2
4
6
8
10
12
14
4 5 6 7 8 9
Desviación
Tuplas (bases)
Desviación media CGs
17
20
25
34
34
50
0
10
20
30
40
50
60
4 5 6 7 8 9
Protospaces
Tuplas (bases)
Protospaces usados
24 25 24
21
24
27
0
5
10
15
20
25
30
4 5 6 7 8 9
Basesalmacenadas
Tuplas (bases)
Bases almacenadas por cada
Protospacer

Conclusiones con Bacter10 v1.0
▪ Tuplas de 9 bases: Maximiza el espacio utilizado
▪ Tuplas de 4-5 bases: Minimizan los protospaces utilizados
▪ Tuplas de 4-6 bases: Mejoran el rendimiento en la codificación
▪ Tuplas de 8 y 9 bases: Disminuyen las posibilidades de error
¿Cuál es la mejor?

Conclusiones con Bacter10 v1.0
▪ Aparentemente, las tuplas de 9 bases permiten codificar más
datos y tienen menos posibilidades de error, pero requieren
gastar más protospacers y llevan más tiempo.
▪ Se puede concluir que utilizar un diccionario común para
codificar todos los protospacers (bacterias) es muy difícil,
porque ocasiona demasiados errores, a menos que se utilicen
tuplas muy grandes, lo cual disminuye la cantidad de datos
almacenables.
▪ Lo más óptimo y estable es utilizar diccionarios únicos para
cada protospacer. Pero requiere indicar al principio del
protospacer “el vector de inicialización” para que al leerla
posteriormente sepan decodificar la bacteria.

Por lo que… nos pusimos con el desarrollo de Bacter10 v2.0
▪ Y nos dimos cuenta de que la mejor solución era utilizar diccionarios
individuales por cada protospacer y enviarlos al principio de cada secuencia.
Apenas hay
desviación
sobre el 50%
recomendable
de CGs

Contenido de los nuevos protospacer
ID CONT IV
Diccionario
utilizado
MENSAJE
5 bytes
(tuplas de 4
bases)
¡Necesario para decodificar
el protospacer enviado!

Y esto ocurre con cualquier tipo de tupla (Ej. Tuplas de 5 bases)

Y esto ocurre con cualquier tipo de tupla (Ej. Tuplas de 6 bases)

Conclusiones de Bacter10 v2.0
▪ No hace falta realizar un nuevo estudio estadístico
▪ Cualquier tupla nos garantiza el nº óptimo de CGs
▪ Lo más eficiente será utilizar tuplas pequeñas, para:
▪ ahorrar protospacers
▪ tardar menos tiempo en la codificación

Detección de errores
▪ Además, casos como el de las tuplas de 4 o 5 bases son
interesantes, porque utilizan 32 de las 35 bases, dejando 3
huecos libres que pueden ser utilizados por ej. para PARIDAD
Codificación
Paridad y
compensador de CGs
C_ Nº de A+C par
G_ Nº de A+C impar
_A Nº de T+G par
_T Nº de T+G impar
▪A: 11
▪C: 5
▪T: 6
▪G: 13
11+5=16(par)  C_
6+13=19 (impar)  _T
CT
CT

Mejoras a nivel de detección de errores
▪ CRC, Paridad, Repetición:
▪ Con una importante probabilidad, identifican errores de integridad, pero sin
garantía de manipulación.
▪ Ocupan poco tamaño.
▪ Pueden incrustarse fácilmente en la cadena enviada (como hemos visto con
la paridad)
▪ Códigos de Hamming
▪ Añaden corrección de errores (además de la detección)
▪ En binario, se añadirían 3 bits, por cada 4 bits.
▪ Ocupan más tamaño que por ejemplo un CRC.
▪ Hash:
▪ Integridad: Garantiza que los datos de cada bacteria no han sido alterados.
▪ Ocupa demasiado tamaño en el envío.
▪ El receptor tendría que recibir ese hash de alguna manera alternativa fuera
de las bacterias.

Almacenamiento a gran escala
▪ Raid: sistema de almacenamiento que utilizaría
múltiples bacterias entre las que se distribuirían y
replicarían datos.
Cada protospacer sería “un
sector” de 4 bytes
Con tuplas de 5 bases, 1
Billón de bacterias
permitirían almacenar
aproximadamente 5 GB de
datos con nuestra técnica

Ocultando malware
Fuente: www.wired.com/story/malware-dna-hack/

DNA Storage Bitcoin Challenge (2015-2018)
Fuente: motherboard.vice.com

DNA Storage Bitcoin Challenge
• Enero de 2015
• Nick Goldman presentó en DAVOS una
conferencia sobre el uso del ADN para
almacenar información
• Goldman distribuyó tubos de ADN en los que
codificó la clave de un WALLET que contenía
1 bitcoin ($ 200 en 2015, hoy…)

• El desafío duró 3 años y fue resuelto solo 5 días antes del
límite.
• Había un total de nueve archivos contenidos en los
fragmentos de ADN.
• Sander Wuyts pudo combinar los fragmentos de ADN en el
orden correcto para formar un pedazo largo de ADN.
• Después convirtió la secuencia de ADN en texto sin formato,
revelando la clave privada y desbloqueando el bitcoin

Fuente: motherboard.vice.com

Ya lo tenemos en los primeros organismos vivos
0101010101010
1010101001011
0101011101010
1001010101010
1001010101010
0101010100101
ACTG
1
2
3Fuente: claves de salud

¿Os imagináis llevar vuestro DNI, contraseñas, etc. en…?
0101010101010
1010101001011
0101011101010
1001010101010
1001010101010
0101010100101
Imágenes: dnielectronico.es y proyectocuentaconmigo.wordpress.com

GRACIAS▪ Patricia Rada
▪ Twitter: @pat_prl
▪ Email: prada@iib.uam.es
▪ Juan Antonio Calles
▪ Twitter: @jantonioCalles
▪ Email: jcalles@zerolynx.com

Juan Antonio Calles & Patricia Rada - Biohacking: Almacenando información en el ADN de bacterias [rooted2018]

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Juan Antonio Calles & Patricia Rada - Biohacking: Almacenando información en el ADN de bacterias [rooted2018]

Similar a Juan Antonio Calles & Patricia Rada - Biohacking: Almacenando información en el ADN de bacterias [rooted2018] (20)

Más de RootedCON

Más de RootedCON (20)

Último

Último (20)

Juan Antonio Calles & Patricia Rada - Biohacking: Almacenando información en el ADN de bacterias [rooted2018]