Informacja

Pełna sekwencja ludzkiego rDNA


Próbowałem odzyskać pełną ludzką sekwencję rDNA (bez odstępów i odstępników), która powinna mieć długość około 43 kb za pomocą Biomart, NCBI i rnacentral, ale udało mi się znaleźć tylko 13-kb nie - sekwencja odstępników. Czy regiony przerywnika nie zostały jeszcze zsekwencjonowane z powodu trudności w sekwencjonowaniu regionu powtarzalnego? Dzięki za pomoc.


Udało się znaleźć pełną sekwencję powtarzalnej jednostki:

https://www.ncbi.nlm.nih.gov/nuccore/U13369


Zgodnie z moją najlepszą wiedzą, z szacowanych 500 kopii powtórzeń rDNA w ludzkim genomie zsekwencjonowano i opublikowano tylko 1 i pół powtórzenia. Powtórzenia rDNA ssaków są trudne do sklonowania i wydają się niestabilne w drożdżach i e coli.


Ukończono sekwencjonowanie ludzkiego genomu: naukowcy twierdzą, że sekwencjonowanie całego ludzkiego genomu zostało wykonane z brakującymi fragmentami

Współpraca między międzynarodowymi naukowcami twierdzi, że udało im się zsekwencjonować cały ludzki genom, w tym jego brakujące fragmenty, i jest dokładniejsza niż pierwsze sekwencjonowanie ludzkiego genomu około dwie dekady temu.

Jeśli zostanie potwierdzone, sekwencjonowanie znacznie przewyższy osiągnięcia liderów Human Genome Project i Celera Genomics z White House Lawn w 2000 roku, kiedy naukowcy ogłosili pierwszy projekt sekwencjonowania ludzkiego genomu. Historyczny szkic całej sekwencji ludzkiego DNA i inne próby sekwencjonowania całego ludzkiego genomu pominęły z grubsza 8% genomu.


Setki genomów do naśladowania

T2T-CHM13 reprezentuje genom tylko jednej osoby. Jednak konsorcjum T2T połączyło siły z grupą o nazwie Human Pangenome Reference Consortium, której celem jest sekwencjonowanie ponad 300 genomów ludzi z całego świata w ciągu najbliższych 3 lat. Miga twierdzi, że zespoły będą mogły wykorzystać T2T-CHM13 jako odniesienie do zrozumienia, które części genomu różnią się między poszczególnymi osobami. Planują również zsekwencjonować cały genom, który zawiera chromosomy obojga rodziców, a grupa Migi pracuje nad sekwencjonowaniem chromosomu Y, używając tych samych nowych metod, aby pomóc wypełnić luki.

Miga spodziewa się, że genetycy szybko dowiedzą się, czy którykolwiek z nowo zsekwencjonowanych obszarów i możliwych genów jest powiązany z chorobami człowieka. „Kiedy wyszedł ludzki genom, nie mieliśmy gotowych i przygotowanych narzędzi”, mówi, ale informacje o funkcji nowo zsekwencjonowanych genów powinny teraz napływać znacznie szybciej, ponieważ „zbudowaliśmy tonę zasobów”.

Ma nadzieję, że przyszłe sekwencje ludzkiego genomu obejmą wszystko, w tym nowo zsekwencjonowane sekcje — a nie tylko te, które są łatwe do odczytania. Powinno to być łatwiejsze teraz, gdy genom referencyjny został ukończony i rozwiązano kilka technicznych problemów. „Musimy osiągnąć nowy standard w genomice, w którym nie jest to coś wyjątkowego, ale rutynowego”, mówi.


Naukowcy twierdzą, że zsekwencjonowali cały ludzki genom

Źródło: domena publiczna CC0

Duży międzynarodowy zespół naukowców twierdzi, że w końcu zsekwencjonował cały ludzki genom. Łącznie zespół jest znany jako Konsorcjum Telomere-to-Telomere (T2T) i napisał dokument opisujący swoje wysiłki i przesłał go na serwer preprintów bioRxiv.

W 2000 roku zespół Human Genome Project współpracujący z firmą biotechnologiczną Celera Genomics ogłosił, że ukończył pierwszy projekt sekwencjonowania ludzkiego genomu. W pierwszym szkicu brakowało około 15% genomu. Praca od tego czasu obniżyła odsetek do zaledwie 8%. A teraz konsorcjum T2T twierdzi, że zredukowało go do zera, chociaż wciąż istnieją pewne zastrzeżenia. Grupa przyznaje, że miała pewne problemy z około 0,3% genomu i może być kilka błędów tu i tam – ale bez luk, dlatego grupa nazwała się Konsorcjum Telomere-to-Telomere. W ramach swojej pracy zespół odkrył około 115 nowych genów kodujących białka, co daje łącznie 19 969 nowych.

Naukowcy sugerują, że ich praca była możliwa tylko dzięki wykorzystaniu nowej technologii opracowanej przez Oxford Nanopore i Pacific Biosciences – nowa technologia umożliwiła sekwencjonowanie bez cięcia DNA na kawałki. Zamiast tego przepuszczał DNA przez nanoskopową dziurę, a lasery wielokrotnie odczytywały sekwencje, aby zmniejszyć błędy. Twierdzą również, że liczba znanych zasad wzrosła obecnie z 2,92 miliarda do 3,05 miliarda, a liczba znanych genów wzrosła o 0,4%.

Naukowcy zauważają również, że genom, który zsekwencjonowali, nie pochodził od osoby, ale od bąkowatego, czyli narośla, która w rzadkich przypadkach tworzy się wewnątrz kobiecej macicy. Takie wzrosty występują, gdy plemnikowi udaje się zapłodnić komórkę jajową, która nie ma jądra, a więc ma tylko 23 chromosomy zamiast normalnych 46 występujących w większości ludzkich komórek. Naukowcy zdecydowali się na sekwencjonowanie hydatidiform, ponieważ ułatwiło to im obliczenia.

Wyniki nie zostały jeszcze zweryfikowane, dlatego społeczność genomiczna wstrzymuje się z komentowaniem – w międzyczasie zespół T2T planuje posunąć swoją pracę dalej, sekwencjonując wiele osób z całego świata.


Naukowcy twierdzą, że w końcu zsekwencjonowali cały ludzki genom. Tak, wszystko to.

Dwadzieścia jeden lat temu naukowcy ogłosili pierwszy projekt sekwencjonowania całego ludzkiego genomu. Było to monumentalne osiągnięcie, ale w sekwencji nadal brakowało około 8 procent genomu. Teraz naukowcy współpracujący ze sobą na całym świecie twierdzą, że w końcu wypełnili to samotne 8 procent.

➡ Myślisz, że nauka jest kiepska. Tak jak my. Połączmy to razem.

Jeśli ich praca wytrzymuje wzajemną ocenę i okazuje się, że naprawdę zrobił sekwencjonowanie i składanie ludzkiego genomu w całości, luki i wszystko inne, może zmienić przyszłość medycyny.

Co w genomie?

Sekwencjonowanie ludzkiego genomu od dawna jest ogromnym projektem o godnych celach. Czemu? Ponieważ ludzie lepiej rozumieją swój kod genetyczny, mogą tworzyć lepsze, bardziej spersonalizowane leki, na przykład &mdash, w tym rodzaj leków skoncentrowanych na genach, które zasilały pierwsze skuteczne szczepionki przeciw COVID-19.

Ludzie mają 46 chromosomów w 23 parach, które reprezentują dziesiątki tysięcy pojedynczych genów. Każdy gen składa się z pewnej liczby par zasad zrobione z adenina (A), tymina (T), guanina (G) i cytozyna (C). W ludzkim genomie są miliardy par zasad.

W czerwcu 2000 r. Human Genome Project (HGP) i prywatna firma Celera Genomics ogłoszony ten pierwszy „projekt” ludzkiego genomu. Był to efekt lat pracy, które nabrał tempa ponieważ ludzie nadal tworzyli lepsze komputery i algorytmy do przetwarzania genomu. W tamtym czasie naukowcy byli zaskoczeni, że z ponad 3 miliardów pojedynczych „literów” par zasad oszacowali, że ludzie mają zaledwie 30 000 do 35 000 genów. Dziś ta liczba jest znacznie mniejsza, zawis nieco powyżej 20 000.

Trzy lata później HGP zakończyło swoją misję mapowania całego ludzkiego genomu i w ten sposób zdefiniował swoje terminy:

&bdquoObecna technologia&rdquo robi tutaj dużo ciężkiego podnoszenia. W tym czasie HGP użył procesu zwany sztucznym chromosomem bakteryjnym (BAC), w którym naukowcy wykorzystali bakterię do sklonowania każdego fragmentu genomu, a następnie zbadali go w mniejszych grupach. Kompletna „biblioteka bdquoBAC” to 20 000 starannie przygotowanych bakterii ze sklonowanymi genami w środku.

Ale ten proces BAC z natury pomija niektóre części całego genomu. Powód, dla którego jest świetnym wprowadzeniem do tego, co pomógł osiągnąć nowy zespół naukowców.

Przełom w sekwencjonowaniu

Co czai się w tajemniczych 8 procentach genomu, które nietknięte zostały w 2000 r. „projektu” genomu? Pary zasad w tej sekcji składają się z wielu, wielu powtarzających się wzorów, przez co jest zbyt nieporęczny do badania metodą klonowania bakterii.

BAC i inne podejścia po prostu były odpowiednie dla pozostałych 8 procent genomu z dużą ilością powtórzeń. „Obecne sekwencery DNA, stworzone przez Illuminę, pobierają małe fragmenty DNA, dekodują je i ponownie składają powstałą układankę”, Statystyka&rsquos Matthew Herper raporty. „To działa dobrze w przypadku większości genomu, ale nie w obszarach, w których kod DNA jest wynikiem długich, powtarzających się wzorców”.

To ma intuicyjny sens, wyobraź sobie liczenie od 1 do 50 w przeciwieństwie do liczenia 1, 2, 1, 2, . . . w kółko. Jednym z powodów sukcesu metody BAC jest to, że naukowcy zadbali o zminimalizowanie i dopasowanie nakładania się, co stało się prawie niemożliwe w niezbadanej części genomu z dużą ilością powtórzeń.

Czym więc różni się nowe podejście? Przyjrzyjmy się najpierw, czym one są. Pacific Biosciences (PacBio) z siedzibą w Kalifornii, Oxford Nanopore z siedzibą w Wielkiej Brytanii mają różne technologie, ale dążą do tego samego celu.

PacBio używa system o nazwie HiFi, gdzie pary zasad są krążone, dosłownie jako koła, dopóki nie zostaną przeczytane w całości i z wysoką wiernością – stąd nazwa. System ma zaledwie kilka lat wstecz i stanowi duży krok naprzód zarówno pod względem długości, jak i dokładności w przypadku dłuższych sekwencji.

Tymczasem firma Oxford Nanopore wykorzystuje prąd elektryczny w swoich zastrzeżonych urządzeniach. Pasma par zasad są przeciskane przez mikroskopijny nanopor i tylko jedna cząsteczka na raz i gdzie prąd je niszczy, aby zobaczyć, jakiego rodzaju są cząsteczkami. Zaskakując każdą cząsteczkę, naukowcy mogą zidentyfikować całą nić.

W nowym badaniu opublikowanym na biologicznym serwerze preprintów bioRxiv, międzynarodowe konsorcjum około 100 naukowców wykorzystało technologie PacBio i Oxford Nanopore do odnalezienia niektórych z pozostałych nieznanych sekcji ludzkiego genomu.

Wielkość gruntu, którą pokryło konsorcjum, jest oszałamiająca. „Konsorcjum poinformowało, że zwiększyło liczbę baz DNA z 2,92 miliarda do 3,05 miliarda, co stanowi 4,5 [procentowy] wzrost. Ale liczba genów wzrosła zaledwie o 0,4 [procent] do 19 969 &rdquo Stat raporty. To pokazuje, jak duże są silnie powtarzające się sekwencje par zasad w tej strefie w porównaniu z genami, które reprezentują.

Brakujące ogniwa

Ojciec chrzestny sekwencjonowania Kościół Jerzego, biolog z Uniwersytetu Harvarda, powiedział: Statystyka jeśli ta praca pomyślnie przejdzie przez wzajemną weryfikację, będzie to pierwszy raz każdy genom kręgowców został w pełni zmapowany. A powodem wydaje się być po prostu to, że obie nowe technologie umożliwiają jednoczesne odczytywanie bardzo długich ciągów par zasad.

Dlaczego brakująca informacja o genie jest tak ważna? Cóż, badania nad genami cieszą się dużym zainteresowaniem, a garść najpopularniejszych genów zajmuje większość zainteresowań badawczych i finansowania. Przeoczone geny posiadają wiele kluczowych mechanizmów na przykład wywołujące choroby.

Jest jeden mały szkopuł, chociaż był to również szkopuł z powodu ogłoszenia w 2000 roku pierwszego szkicu genomu. Oba projekty badały komórki, które miały tylko 23 chromosomy zamiast pełnych 46. To dlatego, że wykorzystują komórki pochodzące z układu rozrodczego, w którym jaja i plemniki zawierają połowę pełnego ładunku chromosomów.

Komórka pochodzi z groniakowatego pieprzyka, rodzaju rozrodczego wzrostu, który reprezentuje niezwykle wczesne, nieżywotne połączenie między plemnikiem a komórką jajową, która nie ma jądra. Wybranie tego rodzaju komórki, która była trzymana i hodowana jako „linia komórkowa bdquo” wykorzystywana do celów badawczych, zmniejsza o połowę ogromną pracę sekwencjonowania.

Następnym krokiem jest opublikowanie badania w recenzowanej publikacji. Później jednak zarówno PacBio, jak i Oxford starają się zsekwencjonować cały 46-chromosomowy ludzki genom. Ale możemy chwilę poczekać.


Prawie kompletna sekwencjonowanie ludzkiego genomu

Jef Akst
8 cze 2021

Human Genome Project był tour de force, który zaowocował pierwszym szkicem sekwencji ludzkiego genomu w 2000 roku, ale w rzeczywistości nie był kompletny. Praca pozostawiła luki w sekwencji, które genomistka Karen Miga z Uniwersytetu Kalifornijskiego w Santa Cruz nazywa „ostateczną niewiadomą” w uwagach do STATYSTYKA. Łącznie około 8 procent ludzkiego genomu liczącego ponad 3 miliardy par zasad – w większości powtórzeń, które są trudne pod względem obliczeniowym – pozostało niesekwencjonowane przez dwie dekady od pierwszego szkicu.

Wypełnianie tych luk „nigdy wcześniej nie zostało zrobione”, mówi Miga STATYSTYKA, „a powodem, dla którego nie zostało to zrobione wcześniej, jest to, że jest to trudne”. Ale wraz z międzynarodową grupą współpracowników, Miga w zeszłym miesiącu (27 maja) opublikowała preprint, który zaczyna to robić, dodając prawie 200 milionów zasad DNA do znanej sekwencji ludzkiego genomu i odkrywając w tym procesie około 115 genów potencjalnie kodujących białka.

„To ekscytujące mieć pewne rozwiązanie problemów”, mówi Kim Pruitt, bioinformatyk z amerykańskiego Narodowego Centrum Informacji Biotechnologicznej w Bethesda w stanie Maryland, który nie był zaangażowany w badania. Natura.

Miga i jej koledzy użyli długo czytanych technologii sekwencjonowania z Pacific Biosciences i Oxford Nanopore do zbadania DNA wyekstrahowanego z linii komórkowej pochodzącej ze wzrostu macicy zwanego pieprzykiem groniastym. Ta struktura powstaje w wyniku zapłodnienia komórki jajowej bez jądra, co oznacza, że ​​kret przenosi tylko DNA z plemnika, a nie od osoby, w której macicy się rozwijało – anomalia genetyczna, która ułatwiła rozszyfrowanie większej części genomu, ponieważ nie wymagało to sortowania wkładu genetycznego dwojga rodziców.

Naukowcy wiele lat temu wygenerowali linie komórkowe z tego groniastego pieprzyka, a zatem możliwe jest, że w genomie pojawiły się mutacje przed jego sekwencjonowaniem w ramach tego najnowszego projektu, tak że nowa informacja genetyczna „może być w dużej mierze pozostałością, która gromadzi się jako linia komórkowa. propagowane przez wiele lat w kulturze – mówi Elaine Mardis, nieuczestnicząca w pracach współdyrektorka Instytutu Medycyny Genomowej przy Ogólnopolskim Szpitalu Dziecięcym. STATYSTYKA.

Ponieważ komórki były zamrożone przez lata i nie były przez cały ten czas seryjnie pasażowane, mówi Miga STATYSTYKAuważa, że ​​nowe sekwencje mają znaczenie biologiczne. Jednak zauważa, że Natura że jest kilka regionów, które wymagają dalszego potwierdzenia. Ponieważ plemnik, który zapłodnił komórkę jajową, aby uformować pieprzyk, miał chromosom X, zespół nie dokopał się do dziur genomowych, które istnieją w sekwencji ludzkiego chromosomu Y – nad czym obecnie pracują naukowcy.


Tytuł: Pełna sekwencja genu ludzkiego rybosomalnego RNA o długości 43 Kb i tajemnica wtórnego zwężenia

Tandemowo ułożone geny rRNA znajdują się na 5 chromosomach, w regionach zwanych zwężenia wtórne ze względu na ich charakterystykę barwienia w metafazie. Ich pojawienie się w metafazie przypisano stosunkowo wysokiemu składowi zasad G+C regionów kodujących genów. Kompletna sekwencja nukleotydowa ludzkiego powtórzenia rDNA została już określona i można ją porównać z nowymi modelami struktury chromosomów. Skład zasad wzdłuż całego powtórzenia rDNA nie jest bogaty w G+C: W części transkrybowanej 13 kb regiony bogate w G+C występują naprzemiennie z regionami o przeciętnym składzie zasad. W odstępie międzygenowym o długości 30 kb znajdują się długie odcinki prostych sekwencji bogatych w pirymidynę, ponad 30 elementów Alu i jeden pseudogen o długości 2,3 kb, znajdują się również odcinki sekwencji bogatych w T/A o okresowości 10 zasad, które mogą potencjalnie przyjąć zgięty DNA struktura. Model struktury chromosomu zaproponowany niedawno przez Saitoh i Laemmli łączy informacje o składzie nukleotydów DNA z barwieniem i upakowaniem DNA w metafazie, aby uzyskać albo prążki G, albo prążki R. Kluczowymi lokalnymi elementami do pakowania są regiony mocowania rusztowania bogate w A+T (SAR), które zawierają zgięty DNA i określają charakterystykę prążków poprzez sposób ich organizacji względem siebie nawzajem w ciasno nawinięte (paski G) lub rozciągnięte (pasma R) Wykazano, że rDNA znajduje się w nabrzmiałym prążku R w delikatnie izolowanych chromosomach indyjskich muntjak. Ponieważ zgięty DNA jest również obecny w ludzkim rDNA, może kierować jego organizacją w podobny prążek, który zapada się w rutynowych metodach przygotowania. « mniej


Wyniki

Wybór gatunków do odcisku filogenetycznego

Postanowiliśmy wykorzystać ślad filogenetyczny do identyfikacji regionów w ludzkim IGS, które są potencjalnie funkcjonalne, ale umknęły wykryciu z powodu trudności w pracy z wysoce powtarzalnym regionem rDNA. W tym celu postanowiliśmy porównać ludzką sekwencję rDNA z sekwencjami rDNA z różnych naczelnych. Jednak pomimo zsekwencjonowania genomów kilku gatunków naczelnych, pełna sekwencja rDNA nie została zidentyfikowana, dlatego skonstruowaliśmy sekwencje rDNA dla wybranych gatunków naczelnych przy użyciu zespołów całego genomu (WGA). Wykorzystaliśmy dwa kryteria wyboru gatunków naczelnych do analizy. Pierwszą z nich była dostępność danych dotyczących sekwencji całego genomu Sangera (WGS), ponieważ wstępna analiza sugerowała, że ​​krótkie odczyty danych sekwencjonowania nowej generacji są oporne na składanie kompletnych jednostek rDNA. Zakres pokrewieństwa gatunkowego jest krytyczny dla śladu filogenetycznego [88], dlatego naszym drugim kryterium było włączenie gatunków o różnym pokrewieństwie do człowieka. W oparciu o te kryteria wybraliśmy sześć naczelnych (z około 300 żyjących gatunków naczelnych rozmieszczonych w 13 rodzinach [89]), które miały dostępne dane o sekwencji całego genomu Sangera [90]: Pan troglodyci (szympans), goryl goryl (goryl) i Pongo abelii (orangutan) z Hominidae, Nomascus leucogenys (gibon) z Hylobatidae, Makaka mulatta (makak rezus) od małp starego świata i Callithrix jacchus (powszechna marmozeta) z małp nowego świata. Te naczelne obejmują zarówno gatunki blisko spokrewnione z człowiekiem (Hominidae i Hylobatidae), jak i gatunki bardziej odległe (małpy Starego i Nowego Świata) (Rys. 2A).

A) Drzewo filogenetyczne przedstawiające relacje między gatunkami naczelnych wybranymi do filogenetycznego śladu rDNA [zaadaptowane z 91]. B) Pokazano struktury jednostek rDNA człowieka i naczelnych. Region kodujący rRNA (linia czarna), w tym podjednostki rRNA 18S, 5,8S i 28S (czarne pola) i IGS (linia szara) są wskazane wraz z pozycjami elementów powtarzających się i pseudogenem cdc27. Elementy powyżej linii znajdują się na nitce przedniej, a poniżej na nitce tylnej. Wskazano region kodujący rRNA/współrzędne IGS i długości jednostek rDNA.

Referencyjna sekwencja ludzkiego rDNA

Szeroko stosowana referencyjna ludzka jednostka rDNA (numer dostępu w Genbank U13369) została skonstruowana przez złożenie kilku częściowych sekwencji uzyskanych w różnych laboratoriach [1]. Wiadomo, że ta sekwencja zawiera błędy [25, 92], dlatego chcieliśmy użyć ludzkiej sekwencji rDNA z jednego źródła, która prawdopodobnie będzie miała mniej błędów. Wybraliśmy pełną sekwencję ludzkiej jednostki rDNA (43 972 pz) obecną w nieopisanym klonie BAC (akcesoria Genbank GL000220.1 taka sama jak Genbank AL592188 Dodatek S1) [36], który jest obecny jako nieumieszczone rusztowanie w ludzkim genomie referencyjnym GRCh38 i zawiera pełną i częściową jednostkę rDNA wraz z częścią dystalnego regionu flankującego rDNA. Odnosimy się do tej sekwencji rDNA jako „ludzkiego rDNA” i zawiera ona region kodujący 13 357 pz i IGS o długości 30 615 pz (jak określono przez porównanie z sekwencją ludzkiego rDNA Genbank). [36]. Z wyłączeniem zmienności liczby kopii w mikrosatelitach i innych powtórzeń w IGS (Dodatek S4), ludzki rDNA wykazuje 98,1% identyczności sekwencji z U13369. Ta ludzka sekwencja rDNA ma 96,6% identyczności sekwencji (Dodatek S5) do innej ostatnio opublikowanej sekwencji referencyjnej ludzkiego rDNA [dostępność Genbank KY962518.1 39] również pochodzącej z sekwencjonowanego klonu BAC, który zawiera dystalny region flankujący rDNA (dostępność Genbank FP236383). Różnice to głównie różnice w długościach traktów mikrosatelitarnych (Dodatek S5 zaznaczony na pomarańczowo), ale nasze odniesienie zawiera dwie delecje w porównaniu z KY962518 (współrzędne KY962518.1 13923–14720 i 28 378–28 580 S5 Dodatek, podświetlony na niebiesko), które łącznie wynoszą około 1 kb. Jednym z nich jest delecja jednej powtórzonej kopii z regionu powtórzeń tandemowych R. Szymp ma około połowy tej dodatkowej kopii, ale żaden z pozostałych naczelnych nie ma. Drugim jest usunięcie jednej kopii powtórzenia z zestawu trzech powtórzeń tandemowych zlokalizowanych w obrębie dłuższego regionu powtórzeń długich powtórzeń/powtórzenia motyla, przy czym żaden z gatunków naczelnych w tym badaniu nie dzieli tej dodatkowej kopii. Pozostaje do ustalenia, czy są to naturalne polimorfizmy liczby kopii, czy artefakty składania.

Konstruowanie sekwencji rDNA naczelnych

Aby przeprowadzić filogenetyczny odcisk stopy, najpierw skonstruowaliśmy sekwencje rDNA dla wybranych gatunków naczelnych przy użyciu WGA. Wysoki poziom identyczności sekwencji między jednostkami rDNA w genomie [93–95] prowadzi asemblerów genomu do skonstruowania pojedynczej, „konsensusowej” sekwencji jednostki rDNA o wysokim pokryciu z wielu powtórzeń rDNA. Poziom pokrycia będzie większy niż unikalnych regionów o czynnik liczby kopii rDNA (około 200-500 u naczelnych [96,97]). Dlatego przeprowadziliśmy WGA na publicznie dostępnych danych WGS dla gatunków naczelnych (Tabele S1 i S2) i wybranych kontigów o dużym pokryciu. Te kontigi przeszukano przy użyciu sekwencji ludzkiego rDNA w celu zidentyfikowania kontigów zawierających rDNA, połączono i połączono w celu wytworzenia pełnych sekwencji rDNA. Na tej podstawie uzyskaliśmy jednostki rDNA dla sześciu gatunków naczelnych o wielkości od 37,5 do 42,9 kb (Rys. 2B), a regiony odpowiadające regionowi kodującemu rRNA i IGS zidentyfikowano przez porównanie z ludzkim rDNA (Tabela S4). Ludzki region kodujący dopasowuje się całkowicie (od końca do końca) do wszystkich sekwencji rDNA naczelnych z wyjątkiem marmozety, dla której zewnętrzny przerywnik 5' transkrybowany (ETS) jest o 272 pz krótszy niż ludzki 5' ETS. Może to wynikać z tego, że marmozeta 5’ ETS jest w rzeczywistości niższa od człowieka, lub dlatego, że WGA nie udało się prawidłowo złożyć tego regionu.

Zastosowanie ludzkiego rDNA do identyfikacji kontigów rDNA w WGA naczelnych umożliwia pominięcie regionów obecnych u innych naczelnych, ale nie u ludzi. Co więcej, obecność powtarzających się elementów w IGS, które znajdują się również w innych regionach genomu [98], mogła prowadzić do błędów WGA [99]. Aby wyeliminować te możliwości, najpierw zidentyfikowaliśmy klony BAC zawierające rDNA dla gatunku naczelnych (z wyjątkiem szympansa, który ma wysoki poziom identyczności sekwencji genomowej z człowiekiem) poprzez przeszukiwanie bibliotek genomowych BAC (Tabela S3). Porównaliśmy rozmiary jednostek rDNA WGA i BAC przez trawienie klonów BAC za pomocą I-PpoI, enzym zasiedlający, który tnie rDNA tylko raz (w 28S), oddziela fragmenty za pomocą elektroforezy w żelu inwersyjnym (FIGE) i przeprowadza hybrydyzację Southerna (S1 Rys.). Szacowane długości sekwencji BAC (poprzez FIGE) i WGA rDNA są podobne (S1 Rys i S5 Tabela), przy czym rozmiary FIGE są spójne

1 kb większy niż rozmiary WGA (Tabela S5). ten

Różnica wielkości 1 kb między naszym odnośnikiem rDNA a opublikowanym odnośnikiem KY962518 może tłumaczyć tę różnicę, jeśli brakująca sekwencja nie złoży się we wszystkich naszych sekwencjach rDNA naczelnych, w tym w naszym ludzkim odnośniku. Jednakże, jak wspomniano powyżej, niektóre z tych brakujących sekwencji są obecne u szympansów, co sugeruje, że można je prawidłowo złożyć. Dlatego popieramy interpretację, że żele FIGE nieco przeceniają wielkość i że sekwencje rDNA naczelnych są dokładne. W celu dalszego potwierdzenia integralności sekwencji rDNA WGA, klony BAC rDNA naczelnych sekwencjonowano i uzyskano konsensusowe sekwencje rDNA naczelnych przez mapowanie odczytów do odpowiednich sekwencji rDNA WGA. Średnio konsensusowe sekwencje BAC rDNA są > 97% identyczne z sekwencjami WGA (Tabela S6). Zmienność wynika głównie z przerw w regionach kodujących rRNA spowodowanych brakiem odczytów z tych regionów w danych NGS. Wysoki poziom identyczności sekwencji (gdzie obecne są odczyty) sugeruje, że sekwencje WGS rDNA są dokładnymi reprezentacjami prawdziwych sekwencji rDNA i biorąc pod uwagę, że regiony rDNA nie są reprezentowane w odczytach NGS, użyliśmy sekwencji WGA jako referencyjnego rDNA sekwencje dla wszystkich gatunków naczelnych innych niż człowiek.

Następnie scharakteryzowaliśmy te nowe sekwencje rDNA naczelnych, aby określić ich podobieństwo strukturalne do ludzkiego rDNA (Dodatek S1). Długość regionu kodującego w sześciu gatunkach naczelnych jest podobna do długości człowieka i.mi. około 13 kb, z wyjątkiem gibona, który jest nieco mniejszy (Tabela S4). Zgodnie z oczekiwaniami, w miarę jak przechodzimy od szympansa do marmozety zwyczajnej, identyczność sekwencji parami z człowiekiem zmniejsza się dla regionu kodującego (Tabela S4). Składnik mikrosatelitarny jednostki rDNA we wszystkich sześciu gatunkach naczelnych jest wyższy niż średnia dla całego genomu dla każdego gatunku (Tabela 1), a człowiek ma najwyższą zawartość mikrosatelitów z powodu dwóch długich, unikalnych [TC]n powtórz bloki (Rys. 2B). Elementy Alu są najliczniejszymi powtarzającymi się pierwiastkami w IGS naczelnych (Tabela 1), a liczba jest ortologiczna między człowiekiem, małpą i makakiem rezus (S2 Rys i S7 Tabela i S4 Dodatek). Odkryliśmy, że zgodnie z poprzednim raportem [56], Aluhuman22, Aluhuman25 i Aluhuman27 są obecne u szympansów, gorylów, orangutanów, gibonów i makaków rezus, podczas gdy Aluhuman23 występuje u małp, ale nie u makaków rezus. Doniesiono również, że ortologi Aluhuman26 i Aluhuman28 są obecne u makaków rezus [56], ale nasze wyniki pokazują, że podczas gdy te dwa Alus są zachowane u małp, elementy Alu obecne w podobnych regionach u makaków rezus znajdują się na przeciwnej nici. W ludzkim rDNA zidentyfikowano kilka powtórzeń o nieznanej funkcji (nazywanych powtórzeniami długimi i powtórzeniami motyla [1]). Pokazują one różne rozkłady wśród naczelnych (Rys. 2B), co sugeruje, że powstały w różnych punktach ewolucji naczelnych. Pseudogen cdc27 w ludzkim IGS jest również obecny u małp, ale nie u małp, jak wcześniej donoszono [56], a sekwencja rDNA makaków rezus zawiera duże retrotranspozony LTR i powtórzenia satelitarne, których nie ma u innych gatunków (Rys. 2B). Podsumowując, wyniki te pokazują, że wyraźny sygnał ortologii i syntenii jest zachowany w sekwencjach rDNA wybranych naczelnych, ale istnieje również wystarczająca różnorodność, aby filogenetyczne odciski stopy były skuteczne.

Konserwowane regiony w ludzkim IGS zidentyfikowane na podstawie śladu filogenetycznego

Aby zidentyfikować nowe konserwatywne regiony, które są potencjalnie funkcjonalne w ludzkim rDNA poprzez filogenetyczny odcisk stopy, zestawiliśmy sekwencje ludzkiego i naczelnego rDNA. Chociaż sekwencje rDNA marmozety ludzkiej i pospolitej są zgodne, dopasowanie jest zagrożone przez stosunkowo niski poziom identyczności sekwencji (Tabela S4). W związku z tym pominięto wyrównanie z marmozetą pospolitą (MSAczłowiek-makak) wykorzystano do odcisku filogenetycznego. MSAczłowiek-makak ma długie ciągi przerw, które są głównie wynikiem bloków satelitarnych w rDNA makaków rezus (S6 Dodatek). Ponieważ celem była identyfikacja konserwatywnych regionów w ludzkim rDNA, wszystkie kolumny w przyrównaniu wielu sekwencji (MSA) z przerwami w ludzkim rDNA zostały usunięte. Aby zaobserwować poziom zachowania sekwencji, wygenerowano wykres podobieństwa za pomocą Synplot (Rys. 3). Następnie zidentyfikowaliśmy regiony, które są zachowane przy użyciu metody phastCons, która wykorzystuje maksymalne prawdopodobieństwo dopasowania filogenetycznego ukrytego modelu Markowa do wyrównania [77]. Czterdzieści dziewięć konserwatywnych regionów (od c-1 do c-49) zidentyfikowano w ludzkim IGS (Rys. 3 i tabela S8), co odpowiada 21,9% jego długości. Te konserwatywne regiony mapują się zarówno na unikalne regiony, jak i elementy Alu w rDNA (Rys. 3). Przyjrzeliśmy się, aby sprawdzić, czy te regiony są również konserwatywne w rDNA marmozety zwyczajnej i myszy (przy użyciu referencyjnego dostępu rDNA Genbank BK000964.3). Dwadzieścia trzy konserwatywne regiony zmapowane z rDNA marmozet zwyczajnych i cztery zmapowane z mysim rDNA, z których trzy znaleziono w obu, stosując >50% próg identyczności (Rys. 3 i tabela S9). Co ciekawe, dwa z trzech regionów zachowanych zarówno u myszy, jak i u marmozety zwyczajnej (c35-36) pokrywają pojedyncze powtórzenie Alu (Aluczłowiek20) bez opisanej funkcji. Łącznie to podejście filogenetycznego odcisku stopy ujawnia konserwatywne regiony w ludzkim IGS, w tym niektóre głęboko konserwowane regiony, które reprezentują potencjalnie funkcjonalne elementy.

Oś pozioma reprezentuje pozycję w ludzkim rDNA, oś pionowa poziom podobieństwa sekwencji między 0 (brak identyczności) a 1 (wszystkie zasady takie same). Do wygenerowania wykresu podobieństwa zastosowano przesuwne okno o wielkości 50 pz z przyrostem o 1 pz. Konserwowane regiony w IGS (fioletowe pudełka) zidentyfikowano przy użyciu phastCons. Pozycje elementów Alu (zielone prostokąty), mikrosatelitów (szare prostokąty), pseudogenu cdc27 (różowe prostokąty), promotora rRNA (niebieskie linie), wcześniej zidentyfikowane niekodujące transkrypty IGS (zielone faliste linie), miejsca wiązania c-Myc (pomarańczowe linie), miejsce wiązania p53 (linia zielona) i pola Sal (czerwone linie elementów terminatora). Konserwowane regiony z czarnym kółkiem lub trójkątem poniżej są konserwowane odpowiednio w rDNA marmozety zwyczajnej i myszy.

Zachowanie znanych wcześniej cech ludzkiego IGS

Aby zweryfikować, czy ślad filogenetyczny jest w stanie zidentyfikować elementy funkcjonalne w ludzkim rDNA, przyjrzeliśmy się, czy znane elementy ludzkiego rDNA są konserwowane wśród naczelnych. Zgodnie z przewidywaniami regiony kodujące rRNA 18S i 5,8S są wysoce konserwatywne u naczelnych, podczas gdy region kodujący 28S rRNA składa się z konserwatywnych bloków przeplatanych regionami zmiennymi, jak opisano wcześniej (Rys. 3) [100 Ryc. 3.101.102]. Promotor rRNA ma dwa scharakteryzowane elementy: element kontrolny upstream (UCE) od pozycji -156 do -107 i główny element kontrolny (CCE) od pozycji -45 do +18 [54], a oba elementy są konserwatywne (Rys. 3 i S3A). Kilka potencjalnych terminatorów transkrypcji rRNA (skrzynki Sal) znajduje się poniżej regionu kodującego 28S rRNA [55,103] i wszystkie są konserwatywne (S3B rys.). Ponadto zachowany jest boks Sal proksymalny do promotora rRNA [55], chociaż funkcjonalne znaczenie terminatora w tej pozycji nie jest jasne. Miejsca wiązania c-Myc zidentyfikowane wokół promotora rRNA znajdują się w konserwatywnym regionie (c49 Rys. 3), przy czym wykazano, że ten obszar wiąże c-Myc [57]. Kilka innych przewidywanych miejsc wiązania c-Myc w IGS również należy do regionów konserwatywnych, chociaż większość (w tym miejsca w pobliżu terminatora, które, jak wykazano, wiążą c-Myc) nie (Rys. 3) [57]. Jednak zachowanie samego motywu wiążącego nie przekłada się automatycznie na konserwowany region z powodu progów stosowanych do definiowania konserwowanych bloków (S4 rys.), a niektóre motywy wiążące c-Myc wokół terminatora, które nie znajdują się w regionie konserwowanym, są jednak konserwatywne. Region odpowiadający pRNA, niekodującemu transkryptowi RNA, który odgrywa rolę w wyciszaniu rDNA u myszy [104], pokrywa się z konserwatywnym regionem c49, chociaż nie jest konserwowany u myszy (Rys. 3). Dwa ludzkie transkrypty IGS, które powstają w wyniku stresu [zwane IGS21RNA i IGS28RNA 18]) nakładają się odpowiednio konserwowane regiony c20-c23 i c28-c30 (Rys. 3). Konserwacja tych niekodujących transkryptów IGS sugeruje, że ich funkcja w odpowiedzi na stres może być zachowana u naczelnych. Razem, nasze wyniki pokazują, że wiele elementów w rDNA, o których wiadomo, lub co do których sugerowano, że są funkcjonalne, pojawia się jako zachowane piki, co sugeruje, że nasze podejście do odcisku filogenetycznego ma zdolność do identyfikacji elementów funkcjonalnych w IGS.

Powiązanie nieznanych konserwatywnych regionów z transkrypcją

Wcześniej znane elementy funkcjonalne stanowią 11 (c1-c3, c20-c23, c28-c30 i c49) ze zidentyfikowanych 49 konserwatywnych regionów. Pozostałe konserwowane regiony pozostają niescharakteryzowane, a regiony te mogą reprezentować nowe elementy funkcjonalne. Dlatego następnie szukaliśmy potencjalnych funkcji tych nowatorskich, zachowanych regionów. Obecność scharakteryzowanych niekodujących transkryptów w ludzkim IGS [18,104,105], a także ich wyeksponowanie w rDNA innych organizmów [11,106–108] skłoniło nas do zbadania, czy niektóre z konserwatywnych regionów są związane z transkrypcją niekodującą. Zmapowaliśmy publicznie dostępne długie poli(A+) i poli(A-) (>gt200 pz) oraz małe RNA (<200 pz) sekwencje RNA [109] ze wszystkich sześciu linii komórkowych pierwszych dwóch poziomów projektu ENCODE do zmodyfikowane złożenie ludzkiego genomu, do którego dodaliśmy sekwencję ludzkiego rDNA („złożenie zmodyfikowanego ludzkiego genomu”), bez maskowania powtórzeń. Linie komórkowe obejmowały dwie normalne linie komórkowe (HUVEC i GM12878), jedną linię embrionalnych komórek macierzystych (H1-hESC) i trzy linie komórek rakowych (K562, HeLa-S3 i HepG-2). Zidentyfikowano kilka nowych transkryptów poli(A+) i poli(A-), w tym transkrypty wspólne dla wszystkich linii komórkowych oraz transkrypty ograniczone do podzbioru linii komórkowych (S5 Rys i S10–S21 Tabele). Aby zidentyfikować potencjalne miejsca startu transkrypcji (TSS) dla tych niekodujących transkryptów, zmapowaliśmy publicznie dostępne dane CAGE z projektu FANTOM5 [82] do zmodyfikowanego zespołu genomu ludzkiego z zamaskowanymi powtórzeniami (aby zapobiec fałszywemu dopasowaniu krótkich odczytów sekwencji CAGE). Zidentyfikowano kilka pików CAGE, które potwierdzają obecność niektórych nowych transkryptów IGS (Pliki S5 Fig i S22 Table Bed dla transkryptów RNA-seq i pliki BedGraph dla pików CAGE są dostępne pod adresem figshare https://doi.org/10.17608/k6.auckland.6159395.v1).

Obecność transkryptów pochodzących z ludzkiego IGS sugeruje, że regulatory transkrypcji (np. promotory, wzmacniacze i izolatory) są obecne w IGS i mogą odpowiadać niektórym konserwatywnym regionom. Dlatego zmapowaliśmy publicznie dostępne dane ENCODE ChIP-seq dla modyfikacji histonów, polimerazy II i III RNA, czynników transkrypcyjnych (TBP, c-Myc i ZNF143) oraz białka wiążącego izolator CTCF, wysoce konserwatywnego białka, które jest zaangażowane w trójwymiarowa organizacja chromatyny [110–112] do zmodyfikowanego zespołu genomu ludzkiego. Wykorzystaliśmy dane ChIP-seq z sześciu linii komórkowych, które poddano analizie RNA-seq, a także z dodatkowej linii komórek nowotworowych (A549) z poziomu 3 projektu ENCODE. Zidentyfikowano kilka pików wzbogacenia dla tych czynników (S6–S12 Figs BedGraph pliki dla pików ChIP-seq są dostępne pod adresem figshare https://doi.org/10.17608/k6.auckland.6159395.v1), przy czym te związane z aktywną transkrypcją są wyraźne i ostre, podczas gdy te związane z represją transkrypcji są stosunkowo szerokie, jak wcześniej zaobserwowano [59]. Linia komórkowa HeLa-S3 stanowi wyjątek, ponieważ piki modyfikacji histonów związane z aktywną transkrypcją są również szerokie. Linia komórkowa GM12878 ma mniej wyraźnych pików modyfikacji histonów niż inne linie komórkowe, prawdopodobnie z powodu utraty znacznej liczby odczytów ChIP-seq podczas etapu kontroli jakości tej linii komórkowej. Następnie zintegrowaliśmy modyfikację histonów, profile CTCF i Pol-II dla wszystkich siedmiu linii komórkowych za pomocą Segwaya [113], aby określić domniemane stany chromatyny w IGS (S13 Rys i S23 Tabela). Na koniec przecięliśmy zestawy danych sekwencji RNA, CAGE i stanu chromatyny z konserwatywnymi regionami, aby zidentyfikować transkrypty i stany chromatyny, które są potencjalnie zachowane funkcjonalnie. Analiza ta ujawniła trzy znaczące strefy w IGS zawierające kilka konserwatywnych regionów, które albo wykazują dowody na aktywną transkrypcję, albo mają stany chromatyny związane z transkrypcją (Rys. 4). Razem strefy te stanowią 18 z 38 nieznanych obszarów chronionych, w tym 14 z 23 obszarów chronionych przez marmozetę zwyczajną. Pierwsza strefa znajduje się w pobliżu terminatora transkrypcji rRNA i nazywamy ją strefą-1. Obejmuje konserwatywne regiony od c6 do c23 (

14,8 KB—21,1 KB) (Rys. 4) i zawiera wiele transkryptów poli(A+) i poli(A-) wspólnych dla wszystkich linii komórkowych (S5 rys.), z których wiele wydaje się być splecionych. Istnieje wiele pików modyfikacji histonów, które wskazują na stany chromatyny związane z transkrypcją, najbardziej widoczne w liniach komórkowych H1-hESC i HepG2. Wydaje się, że pewna liczba przypuszczalnych transkryptów pochodzi powyżej tej strefy, w regionie wzbogaconym o stany chromatyny związane z aktywną transkrypcją i pikami CAGE, ale nie wykazujący zachowania sekwencji. Strefa 1 zawiera również wcześniej zidentyfikowany IGS21Niekodujący transkrypt RNA (Rys. 3).

Ludzki IGS pokazano na górze, ze wskazanymi pozycjami elementów Alu (zielone prostokąty), mikrosatelitów (szare prostokąty), konserwatywnych regionów (fioletowe prostokąty) i wcześniej zidentyfikowanych niekodujących transkryptów IGS (czarne strzałki). Poniżej przedstawiono cechy chromatyny i transkrypcji siedmiu ludzkich linii komórkowych. Pozycje konserwowanych regionów są zaznaczone jasnym cieniowaniem. Dla każdej linii komórkowej wskazano obecność miejsca startu transkrypcji (TSS), promotora (Prom), wzmacniacza (Enh) i stanów segmentacji CTCF, uzyskanych przez połączenie pików dla modyfikacji histonów, Pol II i CTCF przy użyciu Segwaya. Poniżej pokazane są piki CAGE dla nici przedniej (czarne prostokąty) i odwrotnej (czerwone prostokąty) (dane dotyczące komórek macierzystych CAGE pochodzą z H9-hESC, a nie z H1-hESC), a następnie długie poli(A+) i poli(A-). ) transkrypty (odpowiednio zielona i niebieska strzałka) z wartościami FPKM >gt1 szare strzałki wskazują transkrypty z FPKM <1. Groty strzałek wskazują kierunek transkrypcji. Piki małego RNA są pokazane na różowo. Strefy 1 i 2 wzbogacone o konserwowane regiony i czynniki związane z transkrypcją są zaznaczone na czerwono. Nie wszystkie funkcje mają dostępne dane dla wszystkich linii komórkowych.

Druga strefa znajduje się mniej więcej pośrodku IGS i nazywamy ją strefą-2. Obejmuje chronione regiony c28-c34 (

28,2 do 32,6 kb Rys. 4) i wykazuje silne wzbogacenie w stany chromatyny związane z regulacją transkrypcji i transkrypcji. Konserwowane regiony c28-c30 odpowiadają wcześniej zidentyfikowanemu IGS28Niekodujący transkrypt RNA [18,59] i, zgodnie z wcześniejszymi wynikami [59], wykazują stany chromatyny związane z aktywnością transkrypcyjną (Rys. 4). Chociaż nie wykrywamy IGS28Konkretnie RNA, znajdujemy transkrypty, które się na niego nakładają. Konserwowane regiony c31-c32 wykazują wzbogacenie aktywnych stanów chromatyny, jak opisano wcześniej [59], a także transkryptów w wielu liniach komórkowych (Rys. 4 i S5). Region ten pokazuje również szczyt znaczników CAGE w tej samej pozycji we wszystkich liniach komórkowych, dla których dostępne są dane CAGE (Rys. 4 i S5). Co ciekawe, w konserwatywnym regionie c31 występują dwa przeciwnie transkrybowane małe piki RNA, które mogą reprezentować transkrypcję z dwukierunkowego promotora i są obserwowane tylko w H1-hESC (Rys. 4 i S5). Ogólnie rzecz biorąc, więcej pików znacznika CAGE mapuje się w linii komórek macierzystych niż w innych liniach komórkowych, odzwierciedlając wzorce ekspresji embrionalnych komórek macierzystych w całym genomie [114] i sugerując, że rDNA może być w niezwykle permisywnym stanie chromatyny dla niekodującej transkrypcji w tej komórce rodzaj. Ponadto strefa 2 była jedyną częścią IGS, dla której przewidywano stany segmentacji CTCF we wszystkich liniach komórkowych, które posiadały dane.

Ostatnia strefa obejmuje promotor rRNA (Rys. 4). W tej strefie znajdują się transkrypty niekodujące (S6–S11 Figi), w tym małe piki RNA w linii komórkowej HUVEC. Niektóre z tych transkryptów mogą funkcjonować jak mysie pRNA, mały RNA, który wpływa na transkrypcję rRNA [104], przy czym transkrypty podobne do pRNA zostały wcześniej wykryte w ludzkim rDNA [59]. Strefa ta wykazuje również cechy chromatyny charakterystyczne dla TSS, promotorów i wzmacniaczy, w zależności od linii komórkowej (Rys. 4), i znowu, niektóre z tych cech mogą być związane z obecnością pRNA. Jednak nie ustalono jeszcze, czy ludzie mają pRNA, który jest funkcjonalnie równoważny z mysim pRNA.

Nasze analizy pokazują również szereg transkryptów poli(A+) i poli(A-), małe RNA i stany chromatyny związane z aktywnością transkrypcyjną poza tymi strefami. In some cases these overlap with conserved regions, but in other cases they do not, and it is difficult to determine whether the transcriptional features that overlap conserved regions are associated with the conservation or not. A number of the nonconserved transcriptional features correspond to microsatellite regions (S12 Fig), suggesting they might be artifacts of the spurious alignment of reads to IGS microsatellites [99]. However, microsatellites have been shown to act as promoters and/or enhancers [115–119], hence we cannot completely rule out that the chromatin states at these sites are real.

Replication and double strand break association

The presence of origin of replication activity is a conserved feature of the rDNA [46,120–124]. Genome-wide mammalian origins of replication are not defined by sequence and there is not agreement on precisely where replication initiates in the rDNA [122,125–128]. We looked to see whether origin of replication complex association overlaps with conserved regions in case the rDNA initiates replication in a sequence-specific manner. We mapped publicly available origin of replication complex (ORC) ChIP-seq data [79] to the modified human genome assembly. The majority of ORC signal in the rDNA is found distributed across the rRNA coding region and the regions immediately flanking this (Fig 5). However, six smaller peaks of ORC enrichment are seen in the IGS, with five of them falling in conserved regions (Fig 5). These results suggest that the majority of replication in the human rDNA initiates in the rRNA coding region and/or the regions flanking it, consistent with reports that mammalian origins of replication are enriched in transcriptionally active regions [79]. Whether there is any biological significance to the minor ORC peaks at the conserved regions in the IGS is unclear.

The black plot represents enrichment of ORC in Hela-S3 cells and grey boxes below represent the position of peaks. Scale on the left is the -fold enrichment, and the scale above shows the position in the rDNA. Purple boxes represent conserved regions. The predicted chromatin states: transcription start site (TSS green boxes), promoter (pink boxes), and enhancer (orange boxes) are shown. CAGE peaks are shown as black boxes (positive strand). Long poly(A+) and poly(A-) transcripts with FPKM values > 1 are shown as green and blue boxes, respectively. Gray arrows show transcripts with FPKM < 1. Arrows indicate the direction of transcription. The purple plot at bottom represents the DSB sites in HEK293T cells.

A key feature of the rDNA repeats in yeast is the presence of double strand breaks (DSB) at a conserved site of unidirectional replication fork stalling known as the replication fork barrier site [49,50,129]. We examined whether recently reported DSB sites in the human rDNA [130] are located around conserved regions, but found no consistent pattern of association (Fig 5). Interestingly, however, the major DSB site in the rDNA lies in a region that is close to one peak of ORC enrichment, potentially suggesting the DSB site is a region of replication restart, such as observed at the yeast rDNA [131]. However, this site is at the opposite end of the IGS to where human replication fork barrier activity has been reported [132].

Long noncoding RNAs are conserved among primates

Finally, we reasoned that the presence of transcripts and chromatin states associated with active transcription in conserved regions of the human IGS suggests that similar transcripts should be present in other primates. To test this, we took publicly available paired end total RNA-seq data from liver, lung, and skeletal muscle of chimpanzee [83], and single end poly(A+) RNA-seq data from liver, heart, and cerebellum of chimpanzee, orangutan, and macaque [84]. These data were mapped to the corresponding species’ genome assembly to which the appropriate rDNA sequence had been inserted. We found IGS transcripts in all tissues from chimpanzee and orangutan (S14–S16 Figs and S24–S27 Tables), but in macaque such transcripts were only present in liver and heart tissue. We compared the primate IGS transcripts to HUVEC IGS transcripts, as HUVEC is a primary cell line that has a normal karyotype and is not artificially immortalized, hence is likely to be the closest to a “normal” human cell state. Transcripts similar to those found around the human promoter region are also found in chimpanzee and orangutan. In addition, transcripts similar to those found in zone-1 in the human IGS are found in all primate species we analyzed (Fig 6). Strikingly, there is conservation of splice junctions between human, chimpanzee and orangutan, even though the full lengths of the transcripts are not the same. No transcripts corresponding to zone-2 were found for the non-human primates analyzed here, and only one IGS transcript was found in macaque in zone-1, although this transcript does not overlap the HUVEC transcripts. Therefore, some but not all of the IGS transcripts that emanate from conserved regions in human are conserved across the apes, supporting the idea that these regions may have been conserved to maintain this transcriptional function. However, the lack of IGS transcripts in macaque suggests that transcriptional conservation does not extend as far as the monkeys, although we cannot rule out that the appropriate macaque tissues have not been sampled to find these IGS transcripts, or that their absence simply reflects a loss that is unique to macaque. The lack of transcripts from zone-2 in apes suggests that enrichment of transcriptional regulatory features in conserved regions in this zone may be involved with determining a specific chromatin structure, or that the production of transcripts is tissue-specific, such as the potentially stem cell-specific bidirectional RNA we identified in this region.

The human IGS is indicated at top along with the conserved regions (purple boxes), Alu elements (green boxes) and cdc27 pseudogene (pink box). Below are poly(A+) IGS transcripts from the HUVEC cell line, followed by total RNA chimpanzee IGS transcripts (orange), and poly(A+) IGS transcripts from chimpanzee, orangutan, and rhesus macaque (green boxes). Only transcripts that are in common with human are shown. Transcript names and their start/end coordinates are indicated alongside, as are percent identities between each transcript and the human IGS (in parentheses). Arrowheads indicate direction of transcription.


Dyskusja

The 45S rDNA gives origin to the nucleolus, the nuclear organelle that is the site of ribosome assembly, and transcription and processing of 45S rRNA transcripts to mature rRNAs (Warner 1999 Grummt 2003 Moss etਊl. 2007 Pederson 2011 Woolford and Baserga 2013 Henras etਊl. 2015). The 5S rDNA resides on a single human chromosome, is required for ribosome function, and is transcribed outside of the nucleolus (Sorensen and Frederiksen 1991). Here we examined the genomic architecture and repeat content of the 5S array in multiple human genome assemblies and ascertained contacts between both rDNA arrays (5S and 45S) and the rest of the genome in two human cell lines (erythroleukemia K562 and lymphoblastoid cells). The analyses revealed that 5S and 45S arrays each have thousands of contacts in the folded genome. The analysis also identified an intriguing organization in the 5S array with Alu elements and 5S units adjacent to one another, and organized in opposite orientation along the array. The rDNA contact map displayed conserved and disparate features between two cell types, and pointed to specific chromosomes, genomic regions, and genes with evidence of spatial proximity to the rDNA arrays. The contacts include cell-type specific associations with non-repetitive elements of all human chromosomes. Interestingly, rDNA-associated genes were dispersed across all chromosomes. Moreover, the data showed a lack of direct physical interaction between non-repetitive elements of the 5S and 45S rDNA arrays in K562 and LCLs. This observation suggests that the correlation in copy number between the 5S and 45S array, which has been reported for LCLs (Gibbons etਊl. 2015), might not require direct physical contact between these two arrays. Finally, 5S and 45S contacts with a wide range of chromosome regions and genes are consistent with the global regulatory consequence of rDNA copy number (Gibbons etਊl. 2014).

The substructure of the nucleolus has been carefully described in classical ultra-structural studies (Bouteille etਊl. 1967 Goessens 1984 Fischer etਊl. 1991 Scheer etਊl. 1993), and 45S rDNA units are presumed to form chromosomal loops within the organelle (Raška etਊl. 2006). Hence, the observation that 㸰% of reads containing rDNA sequences had both ends mapping to the 45S arrays is expected. It could reflect rDNA arrays looping in active arrays or be due to a tight packing of array units adopting a silenced state. This is because rDNA array looping has been suggested as a mechanism facilitating coordinate transcription among repeat units of the rDNA array (Henderson etਊl. 1973 Wicke etਊl. 2011). On the other hand, tight packaging of the rDNA array in silenced heterochromatic states is to be expected because not all 10 alleles are presumed to be active at the same time. Both looping to facilitate coordinated transcription as well as tight packaging for silencing could also operate among 45S rDNA arrays on different human chromosomes. Because of the widespread distribution of Alu and other repeats (Batzer and Deininger 2002 Jurka 2004), masking these elements is necessary to remove potential sources of read ambiguity that could confound analyses of Hi-C data. In this regard, analyses with masked repeats indicate a lack of 5S�S rDNA contacts. However, the procedure excluded the possibility that the 5S and 45S arrays might be connected through Alu elements. Hence, we also studied 5S�S rDNA contacts without masking for repeats. The procedure identified only a limited number of hits suggesting a minor contribution of 5S�S contacts even when Alu and other repeats are not masked. Our simulation study was carried out to evaluate this bias and showed that the number of observed contacts between 5S and 45S rDNA is not higher than the number expected from random selected regions with the same length. Finally, when we considered read pairs for which only one end mapped to the 45S rDNA, we found that in 㹰% of the cases the other end cannot be mapped to libraries of human DNA repeats that include Alu and Line1 repeats.

Recent observations of concerted rDNA copy number variation between the 5S and 45S rDNA arrays raise the possibility of cellular processes that promote co-variation in the 5S and 45S arrays. One clue might come from the co-localization of 5S and 45S array subunits in the genome of some fungi and plant species. It suggests that their co-existence in shared 5S�S arrays could have benefits. In yeast, the 5S and 45S units are physically linked in a common array in chromosome XII (Petes 1979 Ganley and Kobayashi 2007). This feature is puzzling in view of 5S and 45S transcription from different RNA polymerases it has been suggested that functional demands contributed to maintain their association. Similarly, in some plant lineages, the conserved linkage of two rDNA clusters (5S and 35S) is thought to be evolutionary ancient (Wicke etਊl. 2011 Barros etਊl. 2012 Galián etਊl. 2012). For instance, in some species of moss (bryophytes) the 5S gene resides in the 26S�S spacers (Sone etਊl. 1999 Wicke etਊl. 2011 Liu etਊl. 2013). These are called L-type rDNA arrays. Observations in gymnosperms (ginkgo and conifers) and angiosperms (flowering plants) suggested that the L-type might have evolved independently at least three times (Garcia etਊl. 2010 Garcia and Kovařík 2013). On the other hand, S-type arrays in which the 5S and 35S elements are located in different chromosomes have also evolved independently in multiple plant lineages (Wicke etਊl. 2011 Garcia and Kovařík 2013). More detailed phylogenetic sampling in plants is necessary to ascertain the multiple evolutionary transitions to and from L-type arrays that appear to be frequent in plants (Garcia etਊl. 2014). Although pseudogenized copies of the 5S rDNA unit exist in animals (Borsuk etਊl. 1988 Sorensen and Frederiksen 1991 Matsuda etਊl. 1994 Martins etਊl. 2002 Kapitonov and Jurka 2003 Kalendar etਊl. 2008) tight physical clustering between functional 5S and 45S elements have not evolved in animals. In humans, the 1q42 rDNA cluster appears to be the only source of mature 5S rRNA species assembled into the ribosome (Barciszewska etਊl. 2001 Ciganda and Williams 2011). Hence, evolutionary evidence of linear co-localization of rDNA clusters in plants and yeast need to be reconciled with data from other eukaryotes.

Studies in plant groups with L and S types of rDNA arrays have yet to find evidence that natural selection favors either case (Garcia and Kovařík 2013). Notwithstanding this, costs and benefits to linked and separated rDNA arrays can be readily envisioned. Evolutionary integration of all rDNA components into a common array suggests that benefits of linked 5S�S might sometimes override potential costs. One plausible advantage of linked 5S�S structures might be to facilitate mechanisms maintaining balance in rRNAs, either through coordinated expression of rRNA units or through co-variation in the abundance of rDNA copies. On the other hand, separation of the arrays might diminish costs from transcription interference due to the high activity of distinct RNA polymerases operating within the same array. For instance, separated 5S and 45S clusters could facilitate the partition of the intracellular environment that are best suited for expression from RNA polymerase I (45S rDNA) or RNA polymerase III (5S rDNA) and diminish resource competition from these two transcriptionally demanding arrays.

In the case of separated 5S and 45S arrays of humans, Drosophila and other eukaryotes, the evolution of cellular functions that promote regulatory and copy number coordination might be expected. In this regard, rDNA centered nuclear organization raises the prospect that spatial co-localization might contribute to resolving tradeoffs of having separated 5S and 45S rDNA arrays with correlated copy number variation and balanced expression of rRNAs. Collectively, the data highlight rDNA array interactions with the rest of the genome and point to cell-line specific rDNA associations with non-repetitive elements of human chromosomes. Portraits of genome folding centered on the ribosomal DNA can help understand the emergence of concerted variation, the control of 5S and 45S expression, as well as provide insights into an organelle that contributes to the spatial localization of human chromosomes during interphase.