Uncommon Descent Serving The Intelligent Design Community

Request for help verifying non-random 3mer pattern in Human Chromosome 1

Share
Facebook
Twitter
LinkedIn
Flipboard
Print
Email

3-base periodicity is a well-known non-random feature of the DNA. That is to say, a base will sometimes be repeated 3 nucleotides away. This should happen randomly at a frequency of about 25% if all the bases are equally represented, but I got something that was slightly away from random.

3-base periodicity is a well known pattern that seems to identify exonic regions. For lack of a better word, I use the word “3mer” whenever I encountered the same base 3 nucleotides away. 3mer is a term Dr. Sanford’s DNA Skittle uses, but I have to confer with him whether that is what he means.

I tried to see how frequently A,T,C,G repeated every 3 bases. It seems the Adenenine and Thymine 3mers appeared about twice as frequently as Cytosine or Guanine 3mers, and this seems partly due to increased A or T frequency. I think this is a legitimate non-random pattern. Here were my numbers for Human Chromosome 1:

guanine count 47,016,562
cytosine count 47,024,413
adenine count 65,570,891
thymine count 65,668,756
guanine 3mer count = 10,798,024
cytosine 3mer count = 10,805,795
adenine = 3mer count 20,297,310
thymine = 3mer count 20,355,586
cg_at_3mer_ratio = 0.5314214023030487

This was a follow on to Jean Claude Perez. I didn’t get the golden ratio, but instead I explored a well-acknowledge phenomenon, namely 3-base periodicity. I want to make sure my numbers are correct. Why should this non-random pattern emerge? Is it codon bias or something? Do I have a bug in my code?

I provided the Java code that I used here:

http://creationevolutionuniversity.com/forum/viewtopic.php?f=3&t=91.

I got the Chromosome 1 fasta file from:
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

Any insights and corrections are especially welcome. Thanks in advance.

Comments
figures are available in my bookjean-claude perez
April 29, 2014
April
04
Apr
29
29
2014
06:52 AM
6
06
52
AM
PDT
details: Chapitre 3 – Une « onde fossile » de période « 3 » vibre dans l’ADN de tous les gènes. 3.1 – RESUME DU CHAPITRE : Je démontre ici ce qui pourrait expliquer la formation de l’ADN en triplets codons conduisant à l’émergence des gènes et structures codantes tels que l’ARN messager. Pour cela je démontre l’existence d’une sorte d’onde de période 3 qui émergerait d’un certain mode d’analyse de toute séquence d’ADN codant telle que ARN, « splicings », et gènes. La méthode d’analyse est simple et universelle : elle consiste à « restructurer » la séquence linéaire (mono-dimensionnelle) d’ADN en matrices à 2 dimensions de 2 3 4 5 6 7 8 9… colonnes. C’est donc une sorte d’analyse modulo (modulo 2 3 4 5 6 7 8 9…) de la séquence. Je mets alors en évidence des sortes de « pics d’organisation » autour des seules structures dont le modulo est un multiple de 3 : exemple 3 6 9 etc… Je démontre ainsi que l’ADN, bien avant que ne se forment les codons triplets de 3 bases lors de la transcription et de la traduction de l’ADN en gènes, préfigure déjà, de manière implicite, cette période 3. Outre l’universalité de cette propriété étendue ici à toute séquence codante à l’origine des gènes, je démontre au contraire la disparition de cette propriété dans l’ADN génomique (génome humain, génomes eucaryotes, chromosomes, « contigs » quelconques d’ADN tels que junk-DNA, etc…) et même dans les gènes formés d’introns et d’exons. 3.2 – INTRODUCTION : Soit ! Cher auteur… Tu viens de démontrer, par chance - ou par hasard - que le génome humain entier s’organiserait autour du nombre 13… O.K. ! Tu viens aussi de démontrer que tout ce qui est à l’origine de la matière non vivante, les éléments de la table périodique de Mendeleïev s’organiserait autour du nombre 2… Soit encore ! Mais seras-tu capable d’en dire autant à propos de ce qui fait de nous des êtres vivants constitués de chair, d’os et, quelquefois même , d’intelligence ? Je voulais juste parler des quelques pour cent du génome humain codant pour gènes et protéines : l’ADN des quelques dizaines de milliers de gènes… Contiennent-ils, eux aussi, la trace omniprésente de NOMBRES ? Bon ! L’auteur, plutôt que d’engager le fer de la polémique, s’effacera ici pour laisser au premier d’entre nous – d’autres auraient dit « le meilleur d’entre nous » - le soin de préciser la question, comme il le faisait déjà dès 1968 alors que votre cher auteur restait encore bercé par de naïves utopies Don Quichottesques et se soixanthuitardisait tout juste avant d’entrer dans une « normalisation » pas tout à fait définitive : Francis Crick écrivait en 1968 : « Why a Triplet? We have argued that the code must have been basically a triplet code from a very early stage, so that one is not entitled to use sophisticated arguments which would apply only to a later stage, although one could argue that early organisms with doublet or quadruplet codes actually existed but became extinct, only the triplet code surviving. …/... It must have, to some extent, a definite structure and this is likely to be based on stretches of double-helix. Thus ,the diameter of a double.helix (since two may have to lie side by side) may have dictated the size of the codon, in that a doublet-code (moving along two bases at a time) would present an impossible recognition problem.” F. H. C. CRICK in The Origin of the Genetic Code, published in 1968, J. Mol. Biol. (1968) 38, 367-379. En d’autres termes : l’un des plus grands problèmes ouverts de la science génétique, c’est celui de l’émergence des codons à partir de la séquence linéaire d’ADN lors des phases de transcription et de traduction des gènes. Pourquoi et comment les nucléotides TCAG s’auto-organisent en sous-structures de 3 bases – les codons – plutôt qu’en sous-structures de 2 4 5 6 ou 7 bases ? Cet « ordre » des codons est-il déjà crypté de manière latente et implicite, dans la séquence d’ADN qui formera le gène ? J’ai découvert, par chance ou par hasard, la réponse à cette question fondamentale de la Biologie ! J’ai en effet découvert une loi simple, que comprendrait tout enfant, démontrant que toute séquence d’ADN appelée à former un gène est structurée par une sorte d’onde fossile de période 3… Cette loi est universelle : on la vérifie dans toute séquence d’ADN, d’ARN, de « splicing » appelée à former gènes et protéines. Elle disparaît totalement dans l’ADN riche en introns ou en régions non codantes telles que gènes avec introns, junk-DNA (ADN poubelle) chromosomes ou génomes. Cependant, de petits génomes, très riches en gènes et pauvres en régions non codantes tels que les génomes des virus, du SIDA (voir figures 3.4 et 3.5) ou du SARS continuent de présenter cette propriété à l’échelle du génome entier. 3.3 – METHODOLOGIE : Considérons une séquence d’ADN codant pour un gène. Cette séquence TCAG est linéaire et mono-dimensionnelle de longueur « s ». Formons les n matrices bidimensionnelles de type : Modulo 2: tableau « s/2, 2 », nota : on ignorera le reste éventuel (résidus). Modulo 3: tableau « s/3, 3 » Modulo 4: tableau « s/4, 4 » Modulo 5: tableau « s/5, 5 » Modulo 6: tableau « s/6, 6 » Etc... Dans chacun de ces tableaux, cumulons les populations respectives T C A G de chacune des colonnes. Si « p » est l’indice du modulo, on obtient donc p listes de 4 nombres, populations respectives des bases T C A ou G dans chacune des p colonnes. Pour chacun de ces quadruplets calculons le rapport de la population la plus nombreuse (exemple : base C) à la moyenne des 3 bases restantes (exemple : bases T A G). Un tel calcul est effectué pour chacun des p quadruplets. Appliquons la « « norme du max » en ne retenant pour chaque groupe modulo p que le rapport le plus important. On obtient en synthèse un vecteur de n valeurs correspondant aux meilleurs rapports relatifs aux modulos respectifs : 2 3 4 5 6 7 8 9 …n. On observe alors que les rapports relatifs aux modulos 3 6 9… sont très supérieurs aux autres rapports 2 4 5 7 8… Nota : tel que le montrent les figures ci-dessous la même méthode peut aussi être appliquée en maintenant la distinction entre les 4 bases T C A et G. On obtient alors une forme plus détaillée et analytique conduisant cependant aux mêmes conclusions : une période 3 structure et sous-tend l’ADN de tout gène. 3.4 – EXEMPLE DE 2 « GENES CELEBRES », BRCA1 et DMD : Voici ci-dessous une illustration de la méthode décrite ci-dessus appliquée à deux célèbres gènes : BRCA1, impliqué dans les cancers du sein et de l’ovaire, d’une part, et le très grand gène DMD (10689 bases sous sa forme ARN constituée des exons seuls, contre 1.7 millions de bases sous sa forme génomique incluant les exons et les introns), il s’agit de l’un des plus grands gènes du génome humain, dont des mutations ou malformations sont à l’origine de la terrible maladie dégénérative : la Dystrophie Musculaire de Duchenne (DMD). Les figures 3.1 (gène BRCA1), puis 3.2 et 3.3 (gène DMD) démontrent unanimement l’évidence d’une prédominance de toutes les périodes multiples de 3. Figure 3.1. Evidence d’une période = 3 structurant l’ARN splicing du gène BRCA1 impliqué dans les cancers du sein ou des ovaires (gène ARN référencé : Alternate splicing BRCA1.a). Figure 3.2. Evidence d’une période = 3 structurant l’ADN codant pour le grand DMD (Dystrophie Musculaire de Duchenne). Figure 3.3. Une autre représentation de l’évidence d’une période = 3 structurant l’ADN codant pour le grand DMD (Dystrophie Musculaire de Duchenne). 3.5 – UNIVERSALITE DE CETTE DECOUVERTE, L’EXTENSION A TOUS LES GENOMES DU SIDA : Dans les figures 3.4 et 3.5 ci-dessous nous démontrons l’universalité de cette découverte appliquée ici à l’intégralité de tous les génomes du SIDA connus : 169 génomes HIV1 et HIV2 de l’homme et SIV des singes. Figure 3.4. Evidence d’une période = 3 structurant les génomes entiers de toutes les souches des 169 virus du SIDA HIV1-HIV2et SIV (ceci est dû au fait le la quasi-totalité de cet ADN code pour des gènes). Figure 3.5. Une autre représentation mettant en évidence une période = 3 structurant les génomes entiers de toutes les souches des 169 virus du SIDA HIV1-HIV2et SIV (ceci est dû au fait le la quasi-totalité de cet ADN code pour des gènes). 3.6 – CONCLUSIONS : C’est un fait désormais établi : une sorte d’ONDE de période 3 structure l’ADN formant chaque gène. En d’autres termes cela signifie que parmi l’ensemble des restructurations en matrices de ces séquences, seules les restructurations en matrices comportant un nombre de colonnes multiple de 3 vont mettre en avant une position dans la séquence ainsi que toutes les positions relatives suivantes situées à 3 6 9… bases. Ainsi, ce seront, ici, les positions 1 4 7 10… Ou bien là les positions 2 5 8 11… Ou encore les positions 3 6 9 12… Non, la notion de CODON n’est pas un concept « sorti du panier » et découvert de manière empirique par les biologistes : Le codon existe, pré-existe déjà à l’état de « trace » dans toute séquence d’ADN d’un gène… Quel est le support biophysique de cette découverte ? Cela reste à découvrir. Mais je suggère que ces sortes d’ondes se traduisent par de véritables résonances, une sorte de « souffle » ou plutôt de « rythme »…jean-claude perez
April 29, 2014
April
04
Apr
29
29
2014
06:51 AM
6
06
51
AM
PDT
Welcome to Uncommon Descent Dr. Perez.scordova
April 29, 2014
April
04
Apr
29
29
2014
06:51 AM
6
06
51
AM
PDT
on the specific period3 analyse you can read the chapter3 of my bpook CODEX BIOGENESIS Chapitre 3 – Une « onde fossile » de période « 3 » vibre dans l’ADN de tous les gènes. 3.1 – RESUME DU CHAPITRE : Je démontre ici ce qui pourrait expliquer la formation de l’ADN en triplets codons conduisant à l’émergence des gènes et structures codantes comme l’ARN messager. Pour cela je démontre l’existence d’une sorte d’onde de période 3 qui émergerait d’un certain mode d’analyse de toute séquence d’ADN codant tel que ARN, « splicings », et gènes. La méthode d’analyse est simple et universelle : elle consiste à « restructurer » la séquence linéaire (mono-dimensionnelle) d’ADN en matrices à 2 dimensions de 2 3 4 5 6 7 8 9… colonnes. C’est donc une sorte d’analyse modulo (modulo 2 3 4 5 6 7 8 9…) de la séquence. Je mets alors en évidence des sortes de « pics d’organisation » autour des seules structures dont le modulo est un multiple de 3 : exemple 3 6 9 etc… Je démontre ainsi que l’ADN, bien avant que ne se forment les codons triplets de 3 bases lors de la transcription et de la traduction de l’ADN en gènes, préfigure déjà, de manière implicite, cette période 3. Outre l’universalité de cette propriété étendue ici à toute séquence codante à l’origine des gènes, je démontre au contraire la disparition de cette propriété dans l’ADN génomique (génome humain, génomes eucaryotes, chromosomes, « contigs » quelconques d’ADN tels que junk-DNA, etc…) et même dans les gènes formés d’introns et d’exons.jean-claude perez
April 29, 2014
April
04
Apr
29
29
2014
06:49 AM
6
06
49
AM
PDT
more on http://fr.scribd.com/doc/200166060/Why-Human-and-Chimp-whole-genomes-are-99-99-close-pdf and http://fr.scribd.com/doc/186894835/jcperezEvolutionFibonacciPrimatesChromosomes4UKjean-claude perez
April 29, 2014
April
04
Apr
29
29
2014
06:34 AM
6
06
34
AM
PDT
Dear sir If you plan demonstrating possible GOD evidence in human genome, please search on HUMAN CHROMOSOME 4 ! https://plus.google.com/103572438711329205534/posts/26WczM9aQbSjean-claude perez
April 29, 2014
April
04
Apr
29
29
2014
06:21 AM
6
06
21
AM
PDT
scordova #8 38 Perl lines: # scordova.pl # search for 3mer use strict; use warnings; my $p1 = "G"; my $p2 = "C"; my $p3 = "A"; my $p4 = "T"; my $p1m = "G..G"; my $p2m = "C..C"; my $p3m = "A..A"; my $p4m = "T..T"; open(IN,"human\\fa\\chr01.fa"); # from http://genome.ucsc.edu undef $/; my $d = ; close IN; my $c1 = my $c2 = my $c3 = my $c4 = my $c1m = my $c2m = my $c3m = my $c4m = 0; while ($d =~ /$p1/g) {$c1++;} while ($d =~ /$p2/g) {$c2++;} while ($d =~ /$p3/g) {$c3++;} while ($d =~ /$p4/g) {$c4++;} while ($d =~ /$p1m/g) {$c1m++;} while ($d =~ /$p2m/g) {$c2m++;} while ($d =~ /$p3m/g) {$c3m++;} while ($d =~ /$p4m/g) {$c4m++;} my $r = ($c1m + $c2m) / ($c3m + $c4m); open(OUT,">scordova.txt"); print OUT "guanine => $c1\n"; print OUT "cytosine => $c2\n"; print OUT "adenine => $c3\n"; print OUT "thymine => $c4\n"; print OUT "guanine 3mer => $c1m\n"; print OUT "cytosine 3mer => $c2m\n"; print OUT "adenine 3mer => $c3m\n"; print OUT "thymine 3mer => $c4m\n"; print OUT "cg_at_3mer_ratio = $r\n"; close OUT; 1; execution time: ~1 minuteniwrad
April 29, 2014
April
04
Apr
29
29
2014
12:24 AM
12
12
24
AM
PDT
Using the numbers above for the given densities of the bases: p(G) = 20.870% p( C ) = 20.874% p(A) = 29.106% p(T) = 29.150% p(3merG) = p(G) p(G) = 4.36% p(3merC) = 4.36% p(3merA) = 8.47% p(3merT) = 8.50% Given G is encountered at beginning of string E ( 3merG) = Number G nucleotides * p(G) = 47,016,562 * 20.87% = 9,812,460 G3mers Actual number 3merG = 10,798,024 deviation from expectation = 985,563 Using normal approximation for binomial distribution: 1 std deviation = sqrt ( 47,016,562 * .2087 (1-.2087) ) = 2786 std deviation from expectation = 985,563 / 2,786 = 353 sigma The pattern seems to be confirmed as non-random for guanine Similarly for Adenine, I got 329 standard deviations from expectation for the number of Adenine 3mers given the 1st base in the reading frame is Adenine.scordova
April 28, 2014
April
04
Apr
28
28
2014
09:43 PM
9
09
43
PM
PDT
Geneticist Joe Felsenstein weighed in: Sandwalk Comment
There is reason to expect at least a weak signal of 3-base autocorrelation. Genomes have large numbers of tandem repeat families, and many of those are 3-base repeats such as CGACGACGA ,,, CGA. Also, in exons in coding sequences, differences of base composition among the three codon positions would be expected to create a weak signal of correlation of bases 3 apart.
scordova
April 28, 2014
April
04
Apr
28
28
2014
06:16 PM
6
06
16
PM
PDT
niwrad, Thank you for your input. What language did you use to calculate the numbers and what data file? I posted my computer code here. It is hardly a page long. http://creationevolutionuniversity.com/forum/viewtopic.php?f=3&t=91 Salscordova
April 28, 2014
April
04
Apr
28
28
2014
06:06 PM
6
06
06
PM
PDT
Law-like patterns are very rare to find (http://www.sciencedaily.com/releases/2010/05/100527013329.htm, http://dx.doi.org/10.1371/journal.pone.0010613). They normally give further insight in the human psychology.WGalbraith
April 28, 2014
April
04
Apr
28
28
2014
10:39 AM
10
10
39
AM
PDT
Sal, this is a little off-topic, but here's something you might add to your list to look into. A linguistic model for the rational design of antimicrobial peptide (Nature, 2006):
Our preliminary studies of natural AmPs [anti-microbial peptides] indicated that their amphipathic structure gives rise to a modularity among the different AmP amino-acid sequences. The repeated usage of sequence modules—which might be a relic of evolutionary divergence and radiation—is reminiscent of phrases in a natural language, such as English. For example, the pattern QxEAGxLxKxxK (where ‘x’ is any amino acid) is found in more than 90% of the insect AmPs known as cecropins. On the basis of this observation, we modelled the AmP sequences as a formal language—a set of sentences using words from a fixed vocabulary. In this case, the vocabulary is the set of naturally occurring amino acids, represented by their one-letter symbols. We conjectured that the ‘language of AmPs’ could be described by a set of regular grammars. Regular grammars are, in essence, simple rules that describe the allowed arrangements of words. These grammars, such as the cecropin pattern mentioned previously, are commonly written as regular expressions and are widely used to describe patterns in nucleotide and amino-acid sequences. To find a set of regular grammars to describe AmPs we used the Teiresias pattern discovery tool11. With Teiresias, we derived a set of 684 regular grammars that occur commonly in 526 well-characterized eukaryotic AmP sequences from the Antimicrobial Peptide Database (APD)(see Methods). Together, these ~700 grammars describe the ‘language’ of the AmP sequences. In this linguistic metaphor, the peptide sequences are analogous to sentences and the individual amino acids are analogous to the words in a sentence. Each grammar describes a common arrangement of amino acids, similar to popular phrases in English. For example, the frog AmP brevinin-1E contains the amino-acid sequence fragment PKIFCKITRK, which matches the grammar P[KAYS][ILN][FGI]C[KPSA][IV][TS][RKC] [KR] from our database (the bracketed expression [KAYS] indicates that, at the second position in the grammar, lysine, alanine, tyrosine or serine is equally acceptable). On the basis of this match, we would say that the brevinin-1E fragment is ‘grammatical’. By design, each grammar in this set of ~700 grammars is ten amino-acids long and is specific to AmPs—at least 80% of the matches for each grammar in Swiss-Prot/TrEMBL13 (the APD is a subset of Swiss-Prot/TrEMBL) are found in peptides annotated as AmPs.
I haven't read it past the first page. I wonder if Teiresias be useful to you in finding patterns? I've never used it myself.JoeCoder
April 28, 2014
April
04
Apr
28
28
2014
10:32 AM
10
10
32
AM
PDT
no one wanted to publish it.
No kidding, if this is real. Who would want to publish it unless it had some medical or biotech significance, and even than. Thanks for the info! I really appreciate the help.scordova
April 28, 2014
April
04
Apr
28
28
2014
10:18 AM
10
10
18
AM
PDT
I read that for 3-base periodicity all 3n-distances does count, not only the first one (https://www.sciencedirect.com/science/article/pii/S0014579306012853?np=y, Abstract). For the correct derivation take a look at http://arxiv.org/pdf/1305.5524 under "Computing the 3-base periodicity of a DNA sequence". I was involved myself in a research project about genetically created patterns. At the end the pattern supported ID and no one wanted to publish it. Luckily journals like BIO-Complexity exists that can accept such results. Until publication it may still take some months but a first print is already available at http://vixra.org/abs/1404.0436, like Perez work the patterns were also non-random with patterns within the pattern.WGalbraith
April 28, 2014
April
04
Apr
28
28
2014
10:09 AM
10
10
09
AM
PDT
Dr. JDD, Thank you so much for weighing in. It is possible I'm totally misunderstanding things. There was a paper which mentioned 3-base periodicity. http://www.ncbi.nlm.nih.gov/pubmed/22100873
Abstract Genomes of almost all organisms have been found to exhibit several periodicities, the most prominent one is the three base periodicity. It is more pronounced in the gene coding regions and has been exploited to identify the segments of a genome that code for a protein. The reason for this three base periodicity in the gene-coding region has been attributed to inhomogeneous nucleotide compositions in the three codon positions. However, this reason cannot explain the three base periodicity present at the level of the whole genome where the codon concept is not applicable. Even though the distribution of each nucleotide is uniform at the positions 0(mod 3), 1(mod 3) and 2(mod 3) when the whole genome data is considered, our analysis reveals that the three base periodicity is arising because of higher correlations among the nucleotides separated by three bases.
I'm not even sure I'm reading the paper correctly. 3mers were mentioned in DNA Skittle. I will talk to Dr. Sanford in couple days, but I wanted to get spooled up on some of the concepts. I posted the computer code to first see if I'm miscalculating (which I did at first, and hopefully the bugs are gone), but it seems there is too much adenine and thymine. For chromosome 2: guanine count 47,947,042 cytosine count 47,915,466 adenine count 71,102,632 thymine count 71,239,379 guanine 3mer count = 10,617,392 cytosine 3mer count = 10,595,383 adenine = 3mer count 22,365,385 thymine = 3mer count 22,446,412 cg_at_3mer_ratio = 0.47337479012502 for chromosome 3 guanine count 38,670,110 cytosine count 38,653,198 adenine count 58,713,343 thymine count 58,760,485 guanine 3mer count = 8,406,956 cytosine 3mer count = 8,415,831 adenine = 3mer count 18,593,998 thymine = 3mer count 18,636,472 cg_at_3mer_ratio = 0.45185534858947524 I agree the excess largely drives the differences in the 3mer pattern. Or I'm thinking I'm doing something wrong. Do I have a bad data file?scordova
April 28, 2014
April
04
Apr
28
28
2014
07:11 AM
7
07
11
AM
PDT
scordova My counts: guanine => 46956489 cytosine => 46964756 adenine => 65491918 thymine => 65586556 guanine 3mer => 7883937 cytosine 3mer => 7887020 adenine 3mer => 13296189 thymine 3mer => 13325970 cg_at_3mer_ratio = 0.592399624688591niwrad
April 28, 2014
April
04
Apr
28
28
2014
07:03 AM
7
07
03
AM
PDT
Hi, I may be well off here, but the numbers do not surprise me for randomness. But as said, I may be over-simplifying this. If we say the true ratio is not 1:1:1:1 but is ~ 47:47:65.5:65.5 then you get a frequency for G or C of 47/[47+47+65.5+65.5] = ~21%. If you do the same for A or T you get ~29%. Now go back to the original numbers and calculate the likelihood of a 3mer occurring. For G or C let’s say 47 x 0.21 = 9.87 – not far off the 10.8 million you get perhaps? 9% out. For A or T you get 65.5 x 0.29 = 19 – not far off the 20.3 (within 6-7%). So there is slight bias perhaps, i.e. less than completely random but that seems to be largely driven by the differences in starting points of each base. Or am I oversimplifying it? JDDr JDD
April 28, 2014
April
04
Apr
28
28
2014
05:20 AM
5
05
20
AM
PDT
1 2

Leave a Reply