DNA dizisi
DNA dizisi veya genetik dizi, gerçek veya hayalî bir DNA molekülü veya ipliğinin birincil yapısına karşılık gelen harfler dizisidir.
Bu dizide bulunan harfler A, C, G, ve T 'dir, bunlar DNA ipliğinde bulunan adenin, sitozin, guanin, ve timin adlı dört bazı temsil eder. Tipik olarak bu diziyi oluşturan harfler birbirine bitişik olarak, aralarda boşluk olmaksızın yazılır, örneğin AAAGTCTGAC gibi; bu dizinin soldan sağa okunuşu 5'-3' doğrultusuna karşılık gelir.
Fonksiyona göre bir DNA dizisine anlamlı veya anti-anlamlı ve kodlayan veya kodlamayan olarak değinilebilir.
Bir DNA molekülünün baz dizisinin okunmasına DNA dizilemesi denir.
Belirsizlik sembolleri
Özel durumlarda bir dizide A, T, C ve G dışında harfler bulunabilir. Bu harfler dizide belirsizlik olduğunu belirtmek için kullanılır. Saf ve Uygulamalı Kimya Uluslararası Birliği (IUPAC)'nin bu amaç için belirlemiş olduğu sembollerin anlamları (ve anımsatıcıları) şöyledir:[1]
- A = adenin
- C = sitozin (ing. cytosine)
- G = guanin
- T = timin
- U = uridin (RNA dizilerinde kullanılır)
- R = G A (pürin)
- Y = T C (pirimidin: ing. pyrimidine)
- K = G T (keto gruplular)
- M = A C (amino gruplular)
- S = G C (kuvvetli bağlılar: ing. strong bonds)
- W = A T (zayıf bağlılar: ing. weak bonds)
- B = G T C (A harici hepsi)
- D = G A T (C harici hepsi)
- H = A C T (G harici hepsi)
- V = G C A (T harici hepsi)
- N = A G C T (herhangi)
Yukarıda belirtilen belirsizlik sembolleri başlıca iki durumda kullanılır:
- DNA dizilemesi sırasında bir baz teknik nedenlerden dolayı tam okunamadığı zaman (örneğin ya G ya C olabilirse, 'S' yazılır)
- birbirine benzeşen dizilerin ortak yönlerini belirtmek için. Örneğin SREBP adlı transkripsiyon faktörünün bağlandığı dizilerin ortak özelliği TCACNCCAC olarak yazılabilir. Bu örnekteki N harfi o konumda herhangi bir bazın bulunabileceği anlamına gelir. Bir diziler grubununu bu şekilde ifade edilen biçimine dizi motifi denir.
Dizi formatları
DNA dizilerinin biyoenformatik programları tarafından okunması için belli standart formatlar oluşmuştur. Örneğin bunların en yaygını olan FASTA formatında birinci satır bir ">" sembolünü takibeden bir başlık içerir, onu izleyen satırlarda ise DNA dizisi yer alır.[2] Örneğin:
>gi|14456711|ref|NM_000558.3| Homo sapiens hemoglobin, alpha 1 (HBA1), mRNA ACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTC AAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCC TGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGG CCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTG TCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACT GCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAA GTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTT CTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAA AGTCTGAGTGGGCGGC
Ayrıca bakınız
- DNA
- DNA dizilemesi
- DNA motifi
- Tek nükleotit polimorfizmi (SNP)
- Dizi analizi
Kaynakça
- ↑ Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences, NC-IUB, 1984.
- ↑ "FASTA format description". 10 Ağustos 2015 tarihinde kaynağından arşivlendi. http://web.archive.org/web/20150810051301/http://www.ncbi.nlm.nih.gov/blast/fasta.shtml. Erişim tarihi: 4 haziran 2009.