Computational Genomics Group
  • Home
  • Research
  • Publications
  • Teaching
  • Blog
  • Group Members
  • News
  • Computational Biology Book
  • Data Analysis with R Book
  • CG2 github
  • Fiction

TADs in yeast and how you can go around a reviewer (if you are right)

4/20/2017

23 Comments

 
Just a few weeks ago we published a paper on Genome Urbanization, a concept describing the spatial clustering of genes in the unicellular eukaryote genome of S. cerevisiae (you can read more about it here). One of the things we put forward in that paper was the existence of discrete topological domains in the yeast genome that strongly resembled the Topologically-Associated Domains (TADs) initially discovered in mammals and now found in most complex eukaryotes. We based our arguments on some rather clear topological boundaries that we were able to observe on HiC contact maps obtained from a widely cited (Duan et al, 2010) public dataset. As you may see in the bottom of the Figure below (adapted from Figure 4D of our paper), one can locate boundaries between TAD-like domains even by eye inspection. In order to do so, we used an insulating approach (as described by Crane et al, Nature 2015) that is largely independent of the local read density. After defining such insulating regions we went on to show that genes that are up-regulated upon topological stress tend to cluster within these regions. 

​But since TADs had not (at the time) been reported in yeast, one of the main criticisms that we received during the review process was directed at this analysis. The reviewer's comment was:
"Authors declare the existence of TAD-like globules in budding yeast. However, these kinds of structures have, so far, never been detected in Saccharomyces cerevisiae. If the authors want to establish the existence of such TAD like structures, they must reinforce their analysis."

At the time, we were eager to get the paper accepted and so we down-played the original term "TAD-like" in "insulated domains" in the final version. Figure 4D remained though and was further supported by a number of analyses that showed the robustness of the boundaries upon different normalization strategies and the lack of LTRs in these regions. In our view, it mattered little to get the message of "TADs also exist in yeast" across, as our main interest was to show the tendency for spatial clustering of genes.
Picture
HiC contact maps for yeast chromosome IV. Top: Figure 1B from Eser et al. (PNAS, 2017). Bottom: Figure 4D from our Genome Urbanization paper (Tsochatzidou et al, Nucleic Acids Res, 2017). Even though the original HiC datasets are not the same (top: Noble lab 2017, bottom: Noble lab 2010) the maps show great similarity. The location of the boundaries shows significant discrepancies as the way to define them differs (see text below).

We were nevertheless right all along as was only recently shown in a paper by the Noble lab (whose original data we had used in our analysis). In a paper that just came out in PNAS, Eser et al., show that TADs do exist in yeast and that they have some very interesting properties. Eser et al., use a new HiC dataset (it seems that you cannot escape the curse of having to RE-do the experiments even if you were the one to perform them originally) but apply a different method to call the boundaries. Their "coverage score" is interesting as an approach because it is insensitive to the resolution of the obtained boundaries (a problem we had to deal with by arbitrarily choosing a 10kb window) and leads to fewer TADs that we were able to define but this is likely related to thresholds in the calling process (we used a 5%-percentile approach, while Eser et al use a local minimum function). Eser et al, find 41 TADs, (we found 85) with a median size that is more than double of the one we found (260kb vs our 100kb). The fact that remains is that there is significant coincidence between both the maps and the boundaries as you can see in the Figure above (adapted from Figures 1B from Eser et al, 2017 and 4B from our paper). 

​What is more important, the properties that are shared by the TAD boundaries in Eser et al. are matching our observations in many respects, as they are shown to be enriched in transcription activity (as originally shown by the group of Sergei Razin) and activating histone marks. Above all, Eser et al. report that regions between the defined TADs are significantly overlapping areas of topoII depletion, which constitutes an immediate link to our finding that genes that tend to be up-regulated by topoII inactivation are enriched in insulated regions (remember this was our way to call TAD boundaries, without using the term "TAD"). Thus, even though one of the main arguments in Eser et al. is that TADs in yeast are mostly related to DNA replication than transcription, it seems that you cannot really do away with transcriptional effects in relation to chromatin organization, especially in a unicellular eukaryote genome where the two processes are expected to be more tightly connected.


In closing, we can now be confident that TADs, or TAD-like domains if you will, do exist in yeast and that they are inherently related to both DNA replication and transcription (even though perhaps indirectly).  Our observations under topological stress lie in the interphase between the two processes as torsional stress accumulation inevitably affects the DNA replication process. Even more interesting, in our view, is the fact that the embedded constraints in the organization of genome architecture are reflected on the evolution of gene distribution along chromosomes, but then again we have already discussed this elsewhere. One last point that we can make is that it is reassuring to see you can constructively argue with a reviewer (provided the reviewer's sanity) if your hypothesis is solid and supported by the data and that it is always nice to see you were right in the first place, even though sometimes courtesy towards a reviewer obliges you to be less audacious in the choice of terminology.
23 Comments

Γιατί το "δόγμα" της Βιοπληροφορικής είναι στην ουσία το "δόγμα" της Βιολογίας.

2/2/2016

0 Comments

 
Picture
Σε ένα πρόσφατο άρθρο γνώμης που δημοσιεύεται στο Gene o Gregory Babbitt και συνεργάτες του από το Τεχνολογικό Ινστιτούτο του Rochester αναρωτιούνται αν "Μπορεί όλη η κληρονομήσιμη βιολογική πληροφορία να αναχθεί σε μία μόνο διάσταση"; (Gene, 578:2, p162-166, 2016).  Βασικός στόχος του άρθρου είναι να θέσει εκ νέου την ιεραρχία των στόχων των βιολογικών επιστημών στην εποχή των μεγάλων δεδομένων (και άρα μεγάλων δυνατοτήτων). Μέρος της επιχειρηματολογίας των συγγραφέων αποτελεί μια (μάλλον καλοπροαίρετη) κριτική στη Βιοπληροφορική και στο βασικό της "δόγμα", το οποίο συνοψίζεται στην εξής πρόταση:

"The central tenet of bioinformatics essentially claims that genetic information exists in symbolic abstraction from the natural world and is subsequently ‘encoded’ into genes."

Το άρθρο είναι ενδιαφέρον σε ό,τι αφορά τις απόψεις και την παρρησία με την οποία αυτές διατυπώνονται. Σε γενικές γραμμές, τα βασικά σημεία του είναι τα εξής:
1. Η βιολογική πληροφορία ξεπερνά τα στενά όρια της γονιδιωματικής αλληλουχίας, καθώς υπάρχουν κληρονομήσιμα χαρακτηριστικά που δεν αποτελούν μέρος του γονιδιώματος.
2. Η βιοπληροφορική ανάλυση, περιοριζόμενη στην ανάλυση αλληλουχιών και δομών βιομορίων, δίνει μια χρήσιμη πλην όμως στατική και μονοδιάστατη ερμηνεία των βιολογικών συστημάτων.
3. Υπάρχει ανάγκη να προχωρήσουμε σε δυναμικές και πολυδιάστατες θεωρήσεις των βιολογικών φαινομένων.
​
Χωρίς κάποια ιδιαίτερη διάθεση να "προστατεύσουμε" το γνωστικό μας αντικείμενο υπάρχει εδώ μια σειρά από επιχειρήματα που είναι όχι μόνο αδύναμα αλλά και δυνητικά επικίνδυνα.


Ας ξεκινήσουμε από το βασικό σημείο κριτικής του άρθρου. Ότι δηλαδή, η βιοπληροφορική προσέγγιση που στοχεύει σε στατικές ερμηνείες, αναλλοίωτων χαρακτηριστικών (αλληλουχιών που διατηρούνται σε εξελικτικούς χρόνους, δομές πρωτεϊνών που παραμένουν απαράλλαχτες από το πιο ταπεινό βακτήριο ως τα πιο πολύπλοκα θηλαστικά) είναι εν ολίγοις ξεπερασμένη αν δεν ενσωματώσει προσεγγίσεις που θα είναι δυναμικές, συστημικές και στοχαστικές. Η άποψη αυτή μάλιστα υποστηρίζεται από το παρακάτω σχήμα, όπου μάλλον απλοϊκά, η μελέτη όλων των παραπάνω ιδιοτήτων εμφανίζεται ως ανάλογη της "κορυφής του παγόβουνου" με το μεγαλύτερο πλούτο να κρύβεται στα "αναλογικά σήματα" κάτω από την επιφάνεια. 
Οι συγγραφείς επικαλούνται, στο σημείο, αυτό μια σειρά από γεγονότα που οι ίδιοι θεωρούν ότι καταδεικνύουν την αδυναμία του "δόγματος" της βιοπληροφορικής. Ως πρώτο από αυτά, αναφέρουν το c-value paradox, το παράδοξο δηλαδή σύμφωνα με το οποίο η φαινομενική πολυπλοκότητα των οργανισμών δε συσχετίζεται με το μέγεθος του γονιδιώματός τους. Από το παράδοξο αυτό σπεύδουν να συνάγουν ότι η "αλληλουχία μόνη της δε φτάνει" και ότι συνεπώς κάτι άλλο (κάτω από την επιφάνεια) είναι αυτό που διαμορφώνει τις ξεχωριστές ιδιότητες των οργανισμών. Είναι όμως πράγματι έτσι;  Κανείς δεν μπορεί να μας διαβεβαιώσει ότι έχουμε κατανοήσει πλήρως τις δυνατότητες κωδικοποίησης του γονιδίωματος. Το ακριβώς αντίθετο συμβαίνει και διακεκριμένοι επιστήμονες έχουν επιχειρηματολογήσει για την ύπαρξη κρυμμένων "στοιβάδων" κωδικοποίησης στις γονιδιωματικές αλληλουχίες (χαρακτηριστικά παραδείγματα εδώ και εδώ).
Από την "εικονοκλαστική" κριτική διάθεση των συγγραφέων δεν ξεφεύγουν ούτε οι προσεγγίσεις αλληλούχισης νέας γενιάς (NGS), οι οποίες είναι κατ' αυτούς προβληματικές καθώς: "one does have to question why this technology was not aimed at directly capturing a more primary form of physical data. For example, perhaps it would have been possible to directly measure interactive energies or binding strengths, while using the sequence information only as a positional reference." Το παραπάνω σχόλιο δεν αντέχει σε κριτική και φαίνεται ότι στην καλύτερη περίπτωση οι συγγραφείς δεν έχουν πλήρη επίγνωση της NGS μεθοδολογίας, δύο από τα βασικά χαρακτηριστικά της οποίας είναι ότι α) βασίζεται σε ενέργειες αλληλεπίδρασης β) χρησιμοποιεί το γονιδίωμα ως σημείο αναφοράς. 

Τα παραπάνω επιχειρήματα παρατίθενται ενδεικτικά. Υπάρχουν κι αρκετά άλλα στα οποία διαφαίνεται μια τάση των συγγραφέων προς έναν (μάλλον κακώς εννοούμενο) "εξυπνακισμό". Αρχικά με την επανάληψη της λανθασμένης αντίληψης ότι η βιοπληροφορική ασχολείται μόνο με αλληλουχίες και δομές και ότι περιορίζεται σε μια στατική ερμηνεία των συστημάτων. Είναι αλήθεια πως το μεγαλύτερο μέρος τόσο θεωρητικών όσο και εφαρμοσμένων εργασίων στο πεδίο της Βιοπληροφορικής/Υπολογιστικής Βιολογίας αφορούν τα παραπάνω αλλά αυτό είναι απλώς απόρροια του γεγονότος ότι οι αλληλουχίες και οι δομές είναι οι κατ' εξοχήν βιολογικές οντότητες που α) διατηρούν αναλλοίωτα (invariant) χαρακτηριστικά β) μπορούν να ψηφιοποιηθούν και γ) είναι άμεσα διαθέσιμα (για όσο τουλάχιστον επικρατεί η φιλοσοφία της ανοιχτής πρόσβασης στα επιστημονικά δεδομένα). Οι υπολογιστικοί βιολόγοι όμως (όπως μου αρέσει να αποκαλώ τους bioinformaticians) ασχολούνται επίσης σε μεγάλο βαθμό με την ανάλυση και την ερμηνεία αποτελεσμάτων από αυτά που οι "βιολόγοι του πάγκου" ονομάζουν "πραγματικά πειράματα" όπως είναι αυτά της γονιδιακής έκφρασης και της ρύθμισής της καθώς και μια σειρά από άλλες προσεγγίσεις μεγάλης κλίμακας στα πεδία της γονιδιωματικής, της πρωτεομικής αλλά και της κυτταρικής βιολογίας. (Από καθαρά τεχνική άποψη, την ανάλυση κύριων συνιστωσών (PCA) που διενεργεί ο χειριστής ενός FACS sorter μπορεί να καταλάβει καλύτερα ένας υπολογιστικός βιολόγος απ' ότι ο κυτταρικός βιολόγος που διενεργεί το πείραμα).

Σε ό,τι αφορά την "προσκόλληση" της βιοπληροφορικής σε στατικά συστήματα, κι εδώ οι συγγραφείς φαίνεται να υπερ-απλουστεύουν τα πράγματα μπερδεύοντας το εφικτό με το επιθυμητό. Όντας αυτοί που επιχειρούν να αναλύσουν τα δεδομένα από ένα πολύπλοκο σύστημα, οι υπολογιστικοί βιολόγοι έχουν στόχο να ενσωματώσουν όσο το δυνατόν καλύτερα τα δεδομένα αυτά σε μια αφηρημένη θεώρηση που να έχει όμως νόημα. Και πράγματι αυτό που ζητείται τις περισσότερες φορές από έναν "βιοπληροφορικάριο" (θα χρησιμοποιώ αυτόν τον όρο για να αναφερθώ σε αυτό το -ανύπαρκτο- είδος "τεχνικού" το οποίο έχουν συχνά στο μυαλό τους οι "πραγματικοί" βιολόγοι) είναι να διαχωρίσει το πραγματικό σήμα/νόημα από τον τυχαίο θόρυβο. Κάτι τέτοιο είναι προφανώς το επιθυμητό, είναι όμως αδύνατο να συμβεί χωρίς ένα βαθμό αφαίρεσης. Το πρώτο πράγμα που θα πρέπει να αφαιρεθεί είναι ακριβώς ο θόρυβος, το στοχαστικό μέρος του φαινομένου, ούτως ώστε να αναδειχθούν οι όποιες αναλλοίωτες, καθορίζουσες ιδιότητές του.
Στο σημείο αυτό οι συγγραφείς φαίνεται να ενστερνίζονται μια σχετικά όψιμη μόδα που εκφράζεται με την αναζήτηση στοχαστικότητας, τυχαιότητας, ποικιλομορφίας και χάους σε όλα τα επίπεδα της βιολογικής επιστήμης. Επισημαίνουν, για παράδειγμα, επικριτικά ότι τα δίκτυα πρωτεϊνικών αλληλεπιδράσεων δεν είναι τίποτα περισσότερο από στατικές απεικονίσεις ή με τα δικά τους λόγια: "static snapshots [...] that speak very little of the dynamic molecular forces that truly define these interactions". Υπάρχει όμως ένας πολύ καλός λόγος για τον οποίο τα δίκτυα είναι στατικά κι αυτός είναι ότι το να δημιουργήσει κανείς δυναμικά δίκτυα σε ένα τόσο πολύπλοκο σύστημα χωρίς πρώτα να το μελετήσει στατικά είναι το ανάλογο του να βάζεις "το κάρο μπροστά από τα άλογα". Κανείς δε διαφωνεί σχετικά με τη δυναμική φύση των βιολογικών συστημάτων, αλλά είναι αφελές να νομίζουμε ότι μπορούμε να μελετήσουμε δυναμικά δίκτυα χωρίς να έχουμε πρώτα κατανοήσει τις ιδιότητες των ίδιων δικτύων "εν στάσει". Είμαι σίγουρος ότι οι αδερφοί Wright δε θα σκέφτηκαν ούτε στιγμή να κατασκευάσουν το αεροπλάνο τους εν πτήσει. Με τον ίδιο τρόπο, το να αποζητούμε την επαναφορά της πολυπλοκότητας από την μπροστινή πόρτα, τη στιγμή που έχει γίνει τόση προσπάθεια για την εκπαραθύρωσή της μοιάζει να υπονομεύει το ίδιο το ερευνητικό πρόγραμμα (εδώ με την γενικότερη έννοια).

Το σημαντικότερο όμως, κι αυτό στο οποίο αναφέρομαι ως "δυνητικά επικίνδυνο" παραπάνω, είναι ότι το άρθρο επιχειρηματολογεί υπέρ μιας θεώρησης των βιολογικών συστημάτων ως "χαοτικών, στοχαστικών, μάυρων κουτιών" τα οποία δε θα μπορέσουμε να καταλάβουμε αν επιμείνουμε στις προσεγγίσεις που βασίζονται στο "βιοπληροφορικό δόγμα". Αντί να προσπαθούμε δηλαδή να μελετήσουμε την τεράστια πολυπλοκότητα των βιολογικών φαινομένων μέσα από τις κληρονομούμενες, αναλλοίωτες ιδιότητές τους θα πρέπει να επιτεθούμε "κατά μέτωπο", βάζοντας στα πειράματα και τα μοντέλα μας όσο το δυνατόν περισσότερες παραμέτρους και περιμένοντας να αναδυθούν αυθόρμητα οι χαρακτηριστικές ιδιότητες του συστήματος μέσα από το χάος. Το πρόβλημα που προκύπτει από αυτήν τη θεώρηση είναι προφανές. Μέσω ενός επιστημολογικού προγράμματος μερικών δεκαετιών, πυλώνες του οποίες υπήρξαν η ψηφιοποίηση βιολογικών δεδομένων και η αντικειμενική ανάλυση αναλλοίωτων χαρακτηριστικών του γονιδιώματος κάτω από το πρίσμα της εξελικτικής θεωρίας, καταφέραμε να διευρύνουμε το παράδειγμα της μοριακής βιολογίας, να εμπλουτίσουμε το "βασικό δόγμα" της και να ανακαλύψουμε νέους μηχανισμούς στα πεδία τόσο της βιοχημείας (π.χ. μη-κωδικά RNA) όσο και της κυτταρικής βιολογίας (διαφοροποίηση κυττάρων μέσω της δράσης συγκεκριμένων μεταγραφικών παραγόντων), κάτι που θα ήταν αδύνατο να συμβεί αν π.χ. ο Yamanaka είχε προσπαθήσει να ενσωματώσει τη "στοχαστικότητα" στα πειράματά του. Υπάρχει ένα βασικός λόγος που η αφαίρεση (abstraction) και η γενίκευση (generalization) βρίσκονται στη βάση των "βιοπληροφορικών" προσεγγίσεων. Αυτός είναι γιατί παραμένουν τα πιο ασφαλή επιστημολογικά εργαλεία που διαθέτουμε για να πειραματιστούμε και να ερμηνεύσουμε τα φυσικά φαινόμενα. Κι από αυτήν την άποψη το "δόγμα της Βιοπληροφορικής" δε διαφέρει πολύ από αυτό που στην ουσία είναι το "Δόγμα της Βιολογίας". 



0 Comments

    RSS Feed

    It's all about...

    Bioinformatics and computational biology with a focus on chromatin and genome architecture, plus a little bit of football and occasional aspects of  University education.

    Archives

    April 2021
    December 2020
    March 2020
    November 2018
    September 2017
    April 2017
    March 2017
    December 2016
    November 2016
    February 2016
    May 2015
    November 2014
    September 2014
    July 2014
    February 2014
    November 2013
    October 2013

    Categories

    All
    Academic Life
    Bioinformatics
    ChIPSeq
    ChIPSeq Bias
    Cpg Islands
    Data Analysis
    Exons
    Football
    Footballomics
    Gene Regulation
    Genetic Diseases
    Genome Architecture
    Genome Structure
    Inflammation
    Journalism
    Math Illiteracy
    NGS
    Nucleosome Positioning
    Nucleotide Composition
    Nucleotide Skews
    Promoters
    R
    Splicing
    Statistics
    Systems Biology
    Tnf
    Transcriptome
    Variation
    Whole Exome

Powered by Create your own unique website with customizable templates.