Qué es y cómo funciona un Oracle de Gedmatch. Desmontando mitos.

Los Oracles de Gedmatch son aproximaciones matemáticas que buscan las N poblaciones que conforman el % de resultados de una persona.

Estas aproximaciones no se basan en ninguna regla lógica o que tengan en cuenta origenes, …. explicado de manera sencilla lo que hace es comparar la diferencia entre tu % y el de X poblaciones de muestra. La población que de un resultado más bajo, es la que teoricamente más se parece a la tuya.

Nota: por motivos didácticos se simplifica el proceso de cálculo de oracle, dejando la esencia del proceso.

Imaginemos un caso muy simple de Oracle 1 población

Oracle 1 población

Tu ADN equivale a un valor de 10

Las muestras que tenemos son:

  • Español: 9
  • Frances: 8
  • Portugues: 8,5
  • Alemán: 6
  • Chino: 1

Si restamos tu ADN de cada una de estas muestras el resultado queda así:

España: 10 – 9 => 1
Francia: 10 – 8 => 2
Portugues: 10 – 8.5 => 1.5
Alemán: 10 – 6 => 4
Chino: 10 – 1 => 9

El resultado es lo que en Gedmatch le llaman Distancia. Como sabréis cuanto más cercano a 0 mejor.

Ordenamos de menor a mayor los resultados y nos queda:

  • España @ 1
  • Portugues @ 1.5
  • Francia @ 2
  • Alemán @ 4
  • Chino @ 9

Y con esto ya teneis el Oracle 1 población.

Oracle 2 poblaciones

El Oracle 2 poblaciones busca las poblaciones que reducidas un 50% cada una tienen menor distancia a la tuya:

Si tu ADN es 10 y las muestras al 50% quedan así:

  • Español 9 – 50% = 4.5
  • Frances 8 – 50% = 4
  • Portugues 8.5 – 50% = 4.25
  • Alemán 6 – 50% = 3
  • Chino 1 – 50% = 0.5

Si buscamos todas las diferencias entre tu ADN y las combinaciones de 50% que sumadas:

10 – (50% Español (4.5) + 50% Español (4.5)) => 10 – 9 => 1
10 – (50% Español (4.5) + 50% Frances (4)) => 10 – 8.5 => 1.5
10 – (50% Español (4.5) + 50% Portugues (4.25)) => 10 – 8.75 => 1.25
10 – (50% Español (4.5) + 50% Alemán (3)) => 10 – 7.5 => 2.5
10 – (50% Español (4.5) + 50% Chino (0.5)) => 10 – 5 => 5
………. HACEMOS TODAS LAS COMBINACIONES
10 – (50% Frances (4) + 50% Frances (4)) => 10 – 8 => 2
10 – (50% Frances (4) + 50% Español (4.5)) => 10 – 8.5 => 1.5
10 – (50% Frances (4) + 50% Portugues (4.25)) => 10 – 8.25 => 1.25
10 – (50% Frances (4) + 50% Alemán (3)) => 10 – 7 => 2.5
10 – (50% Frances (4) + 50% Chino (0.5)) => 10 – 4.5 => 5.5

Repetimos el proceso con todas las combinaciones y luego ordenamos, siendo resultado:

50% Español + 50% Español @ 1
50% Español + 50% Portugues @ 1.25
50% Español + 50% Frances @ 1.5
50% Español + 50% Alemán @ 2.5
50% Español + 50% Chino @ 5

Oracle 4 Poblaciones

El Oracle 4 poblaciones buscas las poblaciones que reducidas un 25% cada una, tienen una menor distancia a la tuya:

Si tu ADN es 10 y las muestras al 25% quedan así:

  • Español 9 – 25% = 2.25
  • Frances 8 – 25% = 2
  • Portugues 8.5 – 25% = 2.125
  • Alemán 6 – 25% = 1.5
  • Chino 1 – 25% = 0.25

Nota por motivos de ejemplo, solo muestra las dos primeras combinaciones, pero en la realidad se realizan todas las combinaciones existentes en el conjunto de poblaciones del Oracle:

10 – (25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25)) => 10 – 9 => 1
10 – (25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25) + 25% Frances (2)) => 10 – 8.75 => 1.25
10 – (25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25) + 25% Portugues (2.125)) => 10 – 8.875 => 1.125
10 – (25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25) + 25% Alemán (1.5)) => 10 – 8.25 => 1.75
10 – (25% Español (2.25) + 25% Español (2.25) + 25% Español (2.25) + 25% Chino (0.25)) => 10 – 7 => 3

Repetimos el proceso con todas las combinaciones (son decenas de combinaciones…) y luego ordenamos, siendo resultado:

25% Español + 25% Español + 25% Español + 25% Español @ 1
25% Español + 25% Español + 25% Español + 25% Portugues @ 1.125
25% Español + 25% Español + 25% Español + 25% Frances @ 1.25
25% Español + 25% Español + 25% Español + 25% Alemán @ 1.75
25% Español + 25% Español + 25% Español + 25% Chino @ 1.75

Como veis, no hay magia alguna, al final es pura matemática que dara resultados tan coherentes como queramos interpretarlos.

Hay varios factores importantes a remarcar:

  • Influye definitivamente la cantidad de muestras que tiene el Oracle. Si solo tuvieramos la muestra de un Chino, naturalmente, es la única combinación que nos va a dar ;).
  • Los oracle son capaces encontrar diferencias continentales, por ello si alguien tiene un abuelo chino y el resto españoles, en el Oracle saldrá esta combinación.
  • Las poblaciones maestras se basan en personas reales, que dicen tener 4 abuelos de la misma zona. Dado esto, las muestras pueden ser incorrectas, estar mezcladas, …. por eso no hay que tomarlo como una verdad absoluta.

Población Proxy => El motivo de muchas confusiones

Una población está compuesta de varios origenes comunes, por ejemplo, los Ashkenazi son mezcla de mediterraneo y levantino. Digamos que si no existiera esta población, sería un 50% Italiano + 50% Libanes por poner dos poblaciones que tienen esa cercania genetica.

Si tenemos en cuenta este detalle, aparece el concepto Población PROXY, es decir, una población que esta compuesta de un origen común al tuyo. Por ejemplo, si alguien tiene un origen de una zona de la Peninsula que tiene cierta influencia italiana, es muy posible que las combinaciones les de un 25% ashkenazi, que como veis es simplemente porque un ashkenazi es un 50% “italiano”, al reducirle un 25% un ashkenazi, es muy posible que el resultado encaje, al igual que la de un italiano del norte.

Si ponemos un ejemplo extremo, si un hijo de un chino y una alemana se introduce en el Oracle como muestra de alemán (por error naturalmente), cuando un chino realice el Oracle, tendrá de resultado que es un 50% “Alemán”. Naturalmente, la muestra es incorrecta e induce a estos errores.

Muchas poblaciones son muy similares, por lo que los % de su tarta tendrán minimas diferencias y en los oracles se iran alternando entre sí. Por ello, la diferencia entre dos valencianos de zonas diferenciadas es muy sútil, por lo que es muy improbable que un Oracle vaya nunca a destacar estas diferencias. Sí que puede sacar las diferencias entre un vasco y un valenciano, porque sí que tienen un diferencia perceptible.