How to generate sashimi plots?

Sashimi Ploty: Klíč k Vizualizaci RNA-seq Dat

30/03/2021

Rating: 4.5 (11273 votes)

V oblasti sekvenování RNA (RNA-seq) a bioinformatiky je vizualizace komplexních genových struktur a vzorců sestřihu nezbytná pro interpretaci dat a vyvozování smysluplných závěrů. Jedním z nejvýkonnějších vizualizačních nástrojů, na které se výzkumníci spoléhají, je Sashimi plot. Ať už zkoumáte alternativní sestřih u rakoviny, prozkoumáváte genovou expresi napříč tkáněmi nebo analyzujete RNA struktury, Sashimi ploty jsou nepostradatelné. Tento článek se ponoří do toho, co Sashimi ploty jsou, jak fungují a proč jsou tak cenné v genomickém výzkumu.

How do you make a sashimi plot in IGV?
Making Sashimi plots from IGV Load the RNA-Seq samples as BAM tracks. Navigate to the region of interest, right click the tracks window and select \u201cSashimi plot\u201d from the menu. A customizable Sashimi plot will appear in a new window, which can be saved in PNG or SVG formats.
Obsahový index

Co jsou Sashimi Ploty?

Sashimi plot je specializovaný graf určený k vizualizaci RNA-seq dat, zaměřující se na sestřihové události a exon-intronové struktury uvnitř genů. Metaforicky řečeno, „nakrájí“ RNA-seq data, což výzkumníkům umožňuje rychle a snadno zkoumat detaily genové struktury. Sashimi ploty integrují dvě klíčové složky:

  • Data o pokrytí: Zobrazují počet sekvenčních čtení mapujících se do specifických exonů v rámci genu, což poskytuje jasný pohled na úrovně exprese. Tlustší bloky exonů naznačují vyšší pokrytí, a tedy i vyšší expresi.
  • Spojovací čtení (Junction Reads): Zvýrazňují čtení, která překlenují exony, ukazují, kde dochází k sestřihu, a propojují funkční segmenty genu. Tyto oblouky jsou často anotovány počtem čtení, aby ukázaly frekvenci sestřihové události.

Na Sashimi plotu:

  • Exony se objevují jako tlusté vodorovné bloky, jejichž výška je úměrná pokrytí čteními.
  • Introny jsou tenké čáry spojující exony, představující nekódující oblasti, které jsou obvykle odstraněny během sestřihu.
  • Sestřihové spoje jsou ilustrovány jako oblouky, často s počtem čtení, což vizuálně ukazuje, jak často je daný spoj používán. Čím větší počet čtení, tím silnější a častější je daný sestřih.

Tyto prvky činí Sashimi ploty ideálními pro pochopení genových struktur a sestřihových událostí. Jasně ukazují genovou expresi a vzorce sestřihu napříč různými podmínkami, což je zásadní pro srovnávací analýzy.

Aplikace Sashimi Plotů

Sashimi ploty jsou široce používány k zkoumání alternativního sestřihu, kde různé kombinace exonů produkují více RNA transkriptů z jediného genu. Mezi klíčové aplikace patří:

Srovnání genové exprese a sestřihu

Výzkumníci používají Sashimi ploty k porovnání genové exprese a sestřihu napříč různými podmínkami, například mezi zdravou a rakovinnou tkání. Toto srovnání může odhalit, jak změny v sestřihu mohou přispívat k mechanismům onemocnění nebo terapeutickým odpovědím. Vizualizací změn v pokrytí exonů a frekvenci spojovacích čtení lze rychle identifikovat rozdíly v expresi izoforem.

Zkoumání tkáňově specifického a vývojového sestřihu

Specifické geny vykazují jedinečné vzorce sestřihu v závislosti na typu tkáně nebo vývojovém stadiu. Sashimi ploty pomáhají identifikovat tkáňově specifické transkripty, což poskytuje vhled do specializovaných rolí genů v různých biologických kontextech. Například, jeden exon může být přítomen v transkriptu v mozku, ale vynechán v transkriptu v játrech, což Sashimi plot jasně ukáže.

Validace rozdílových sestřihových událostí

Sashimi ploty často slouží k validaci významných sestřihových událostí identifikovaných během analýzy RNA-seq. Vizualizací těchto událostí mohou výzkumníci potvrdit, že pozorované vzorce sestřihu jsou konzistentní a biologicky relevantní. Je to kritický krok pro potvrzení bioinformatických předpovědí.

Jak Sashimi Ploty Fungují?

Vytvoření Sashimi plotu z dat RNA-seq zahrnuje několik klíčových kroků:

1. Zarovnání RNA-seq čtení

Nejprve jsou RNA-seq čtení zarovnána k referenčnímu genomu pomocí nástrojů jako STAR nebo HISAT2. Tyto nástroje mapují čtení na exony a identifikují čtení, která překlenují hranice exon-exon, což jsou právě ona klíčová sestřihová spojení.

2. Počítání čtení a identifikace spojů

Po zarovnání jsou čtení spočítána pro každý exon a spojení. Pokrytí čteními na exonech poskytuje úrovně exprese, zatímco spojovací čtení ukazují, které exony jsou sestřiženy dohromady. Tato data tvoří základ pro vizuální reprezentaci.

3. Vizualizace pomocí Sashimi Plotů

Data o čteních jsou poté vizualizována v Sashimi plotu: exony jako tlusté bloky s daty o pokrytí a oblouky mezi exony reprezentující sestřihové spoje. Velikost oblouku typicky odráží počet spojovacích čtení, vizuálně indikující frekvenci sestřihu. Mnohé nástroje umožňují přizpůsobení barev, měřítek a popisů pro lepší interpretaci.

Nástroje pro Generování Sashimi Plotů

Existuje několik bioinformatických nástrojů, které podporují tvorbu Sashimi plotů:

  • IGV (Integrative Genomics Viewer): Široce používaný nástroj pro generování základních Sashimi plotů se strukturami exon-intron a sestřihovými spoji. Je velmi interaktivní a uživatelsky přívětivý pro rychlé prozkoumání.
  • ggsashimi: Balíček v Pythonu pro vytváření vysoce přizpůsobitelných Sashimi plotů s možnostmi pro barvy, popisky a datová měřítka. Je ideální pro generování publikovatelných grafik.
  • MISO (Mixture of Isoforms): Probabilistický framework, který zahrnuje Sashimi plotování jako součást svého nástroje pro analýzu RNA-seq. MISO je obzvláště užitečné pro kvantifikaci a vizualizaci alternativního sestřihu.

Tyto nástroje umožňují výzkumníkům produkovat Sashimi ploty, které zvýrazňují specifické sestřihové události nebo vzorce genové exprese relevantní pro jejich studie.

Podrobné Generování Sashimi Plotů Pomocí MISO

Pro podrobnější kontrolu a generování vysoce kvalitních Sashimi plotů je nástroj sashimi_plot, součást frameworku MISO, vynikající volbou. Zde se zaměříme na jeho použití a konfiguraci.

Příklad příkazového řádku

Hlavní testovací příklad pro funkci --plot-event vypadá následovně:

sashimi_plot --plot-event "chr17:45816186:45816265:-@chr17:45815912:45815950:-@chr17:45814875:45814965:-" test-data/event-data/ settings/sashimi_plot_settings.txt --output-dir test-plot

Tento příkaz vykresluje událost s ID "chr17:45816186:45816265:-@chr17:45815912:45815950:-@chr17:45814875:45814965:-", používá adresář s předzpracovanými daty událostí test-data/event-data/ a vykresluje podle informací poskytnutých v konfiguračním souboru settings/sashimi_plot_settings.txt. Výstupní ploty budou uloženy do adresáře test-plot.

How to generate sashimi plots?

ID události (např. chr17:45816186:45816265:-@chr17:45815912:45815950:-@chr17:45814875:45814965:-) je v tomto případě jednoduše ID přiřazené přeskočenému exonu v GFF anotacích poskytnutých s MISO. Název je libovolný a sashimi_plot vizualizuje jakékoli události, které mu zadáte, pokud mají odpovídající indexovaný GFF soubor. Adresář obsahující informace o události/genové izoformě (v příkladu test-data/event-data) může být jakýkoli adresář vygenerovaný indexováním GFF3 souboru pomocí skriptu index_gff, který je součástí MISO.

Konfigurační soubor sashimi_plot_settings.txt

Konfigurační soubor pro sashimi_plot specifikuje název každého vzorku, který má být vykreslen, adresář obsahující jejich odpovídající BAM soubory a výstupy MISO, a řadu parametrů vykreslování, jako jsou barvy a rozměry obrázku. Příklad konfiguračního souboru vypadá takto:

[data] # directory where BAM files are bam_prefix = ./test-data/bam-data/ # directory where MISO output is miso_prefix = ./test-data/miso-data/ bam_files = ["heartWT1.sorted.bam", "heartWT2.sorted.bam", "heartKOa.sorted.bam", "heartKOb.sorted.bam"] miso_files = ["heartWT1", "heartWT2", "heartKOa", "heartKOb"] [plotting] # Dimensions of figure to be plotted (in inches) fig_width = 7 fig_height = 5 # Factor to scale down introns and exons by intron_scale = 30 exon_scale = 4 # Whether to use a log scale or not when plotting logged = False font_size = 6 # Max y-axis ymax = 150 # Whether to plot posterior distributions inferred by MISO show_posteriors = True # Whether to show posterior distributions as bar summaries bar_posteriors = False # Whether to plot the number of reads in each junction number_junctions = True resolution = .5 posterior_bins = 40 gene_posterior_ratio = 5 # List of colors for read denisites of each sample colors = ["#CC0011", "#CC0011", "#FF8800", "#FF8800"] # Number of mapped reads in each sample # (Used to normalize the read density for RPKM calculation) coverages = [6830944, 14039751, 4449737, 6720151] # Bar color for Bayes factor distribution # plots (--plot-bf-dist) # Paint them blue bar_color = "b" # Bayes factors thresholds to use for --plot-bf-dist bf_thresholds = [0, 1, 2, 5, 10, 20] 

Vysvětlení parametrů konfiguračního souboru

Výše uvedený konfigurační soubor specifikuje, kde se nacházejí BAM soubory pro každý vzorek (a jejich odpovídající výstupní soubory MISO) a také řídí několik užitečných parametrů vykreslování:

bam_prefix
Adresář, kde se nacházejí BAM soubory pro vzorky k vykreslení. Tyto BAM soubory by měly být seřazeny podle souřadnic a indexovány (pomocí samtools index).
miso_prefix
Adresář, kde se nacházejí výstupní adresáře MISO pro události, které mají být vykresleny. Například, pokud vykreslujete událost přeskočeného exonu, pro kterou se výstup MISO nachází v /data/miso_output/SE/, pak by miso_prefix měl být nastaven na /data/miso_output/SE.
bam_files
Seznam BAM souborů pro RNA-Seq vzorky v pořadí, v jakém je chcete vykreslit. Každá hodnota v seznamu by měla být název souboru, který se nachází v adresáři specifikovaném bam_prefix.
miso_files
Seznam výstupních adresářů MISO pro každý vzorek. Měl by dodržovat stejné pořadí vzorků jako bam_files. Každá hodnota v seznamu by měla být výstupní adresář MISO, který se nachází v adresáři specifikovaném miso_prefix. sashimi_plot bude rekurzivně prohledávat cesty v miso_files, aby našel výstupní soubor MISO (končící na .miso) spojený s vykreslovanou událostí.
fig_width
Šířka výsledného obrázku (v palcích).
fig_height
Výška výsledného obrázku (v palcích).
exon_scale / intron_scale
Faktor, kterým se zmenší exony a introny. Vyšší hodnota intron_scale způsobí, že introny budou vypadat kratší, což je užitečné pro vizualizaci dlouhých intronů bez zbytečného natahování plotu.
logged
Zda se mají logaritmovat hustoty čtení RNA-Seq (nastavte na False pro lineární měřítko). Logaritmické měřítko je užitečné pro vizualizaci dat s velkým rozsahem hodnot.
ymax
Maximální hodnota osy y pro hustoty čtení RNA-Seq. Pokud není uvedena, pak bude nastavena nejvyšší hodnota osy y napříč všemi vzorky, což zajistí srovnatelné měřítko y-osy.
show_posteriors
Vykreslit MISO posteriorní distribuce, pokud je True; jinak ne. Tyto distribuce poskytují pravděpodobnostní odhad relativní abundance izoforem.
bar_posteriors
Zda vykreslit MISO posteriorní distribuce ne jako histogramy, ale jako vodorovný pruh, který jednoduše ukazuje průměr a intervaly spolehlivosti distribuce v každém vzorku. To může být užitečné pro zjednodušenou vizualizaci.
colors
Barvy, které se mají použít pro každý vzorek. Barvy by měly být uvedeny ve stejném pořadí jako seznamy bam_files a miso_files.
coverages
Počet mapovaných čtení v každém vzorku, pro použití při výpočtu normalizovaných (tj. RPKM) hustot čtení RNA-Seq. Mělo by být uvedeno ve stejném pořadí jako bam_files a miso_files. Tato čísla odpovídají "na milion" jmenovatelům použitým pro výpočet RPKM, což je klíčové pro srovnání exprese mezi vzorky s různým celkovým počtem čtení.
sample_labels (volitelný)
Seznam řetězcových popisků pro každý vzorek. Ve výchozím nastavení sashimi_plot použije název BAM souboru z bam_files jako popisek pro vzorek. Tato možnost poskytuje alternativní popisky. sample_labels musí mít stejný počet záznamů jako bam_files.
reverse_minus (volitelný)
Určuje, zda mají být události izoforem na minus (-) vlákně vykresleny stejným směrem jako události na plus vlákně. Ve výchozím nastavení je nastaveno na False, což znamená, že události na minus vlákně budou vykresleny opačným směrem než události na plus vlákně, což je často intuitivnější pro vizualizaci transkripce.
nxticks (volitelný)
Počet značek na ose x k vykreslení.
nyticks (volitelný)
Počet značek na ose y k vykreslení.

Díky těmto parametrům umožňuje sashimi_plot uživatelům plně přizpůsobit vizualizaci tak, aby co nejlépe odpovídala jejich výzkumným otázkám a požadavkům na publikaci.

Výhody Sashimi Plotů

Sashimi ploty nabízejí vícevrstvý pohled na data o sestřihu a expresi, což je činí neocenitelnými v bioinformatice:

  • Podrobný pohled na alternativní sestřih: Jasně zvýrazňují události jako vynechání exonu (exon skipping), retence intronu (intron retention) a alternativní sestřihová místa, což umožňuje detailní studium složitých regulačních mechanismů.
  • Vhled do vzorců genové exprese: Data o pokrytí exonů poskytují přímý vhled do relativních úrovní genové exprese, což pomáhá pochopit celkovou aktivitu genu v různých podmínkách.
  • Srovnání napříč podmínkami: Výzkumníci mohou snadno porovnávat sestřih napříč vzorky, například mezi zdravými a nemocnými tkáněmi, odhalující varianty transkriptů specifické pro danou podmínku, které by mohly hrát roli v patologii.

Výzvy a Omezení Sashimi Plotů

Navzdory svým silným stránkám mají Sashimi ploty několik omezení:

  • Variabilita specifická pro vzorky: Data RNA-seq se mohou lišit napříč vzorky a nízký počet čtení může snížit jasnost vizualizace, což ztěžuje spolehlivou interpretaci.
  • Složitá interpretace pro geny s více izoformami: Ploty pro geny s mnoha izoformami nebo komplexním sestřihem se mohou stát přeplněnými a vyžadují odborné znalosti pro přesnou interpretaci. Mnoho překrývajících se oblouků a bloků může být matoucí.
  • Náročnost na zdroje u velkých datových sad: Generování vysoce kvalitních Sashimi plotů pro velké datové sady může vyžadovat značné výpočetní zdroje a čas, zejména při zpracování mnoha vzorků nebo genů.

Sashimi Ploty v Akci: Praktické Využití

Pro výzkumníky v bioinformatice nabízejí Sashimi ploty praktickou vizuální metodu pro interpretaci dat o sestřihu a genové expresi. Od zkoumání mechanismů onemocnění až po studium tkáňově specifické exprese pomáhají Sashimi ploty rozplétat složité RNA struktury, čímž posouvají naše chápání genové regulace a funkce. Umožňují rychlou detekci anomálií a potvrzování hypotéz, které by jinak byly obtížně identifikovatelné pouze z tabulkových dat.

Často Kladené Otázky (FAQ)

1. Co je hlavním účelem Sashimi plotu?

Hlavním účelem Sashimi plotu je vizualizovat data sekvenování RNA (RNA-seq) zaměřením na sestřihové události a exon-intronové struktury genů. Pomáhá výzkumníkům pochopit, jak jsou geny sestřihovány a exprimovány v různých podmínkách nebo tkáních.

2. Proč se nazývají "Sashimi" ploty?

Název "Sashimi" je metaforou. Stejně jako japonská pochoutka sashimi, kde jsou ryby "nakrájeny" na plátky, Sashimi ploty "nakrájí" komplexní RNA-seq data na vizuálně srozumitelné segmenty (exony a introny) a odhalují "řezy" (spoje), které je spojují. Název zkrátka evokuje představu přesného řezu a vizuální čistoty.

3. Jaký je rozdíl mezi pokrytím čtení a spojovacími čteními na Sashimi plotu?

Pokrytí čteními (coverage data) se týká počtu sekvenčních čtení, která se mapují na konkrétní exony, a indikuje úroveň exprese těchto exonů. Na plotu jsou reprezentovány jako výška exonových bloků. Spojovací čtení (junction reads) jsou čtení, která se rozprostírají přes hranice exonů a intronů, a ukazují, kde dochází k sestřihu. Jsou vizualizovány jako oblouky spojující exony a jejich tloušťka nebo číslo nad nimi indikuje frekvenci daného sestřihu.

4. Mohou Sashimi ploty identifikovat nové sestřihové události?

Sashimi ploty samy o sobě primárně slouží k vizualizaci již zjištěných nebo předpokládaných sestřihových událostí. Nicméně, jejich vizuální povaha může pomoci výzkumníkům odhalit neočekávané nebo nové sestřihové události, které by mohly být přehlédnuty v tabulkových datech, zejména při srovnávání mnoha vzorků. Pro formální identifikaci nových událostí jsou však potřeba specializované bioinformatické algoritmy a nástroje.

5. Je nutné mít MISO pro generování Sashimi plotů?

Ne, MISO je jedním z nástrojů, které mohou generovat Sashimi ploty, a je obzvláště robustní pro kvantifikaci alternativního sestřihu. Existují však i jiné nástroje, jako je IGV nebo ggsashimi, které nabízejí podobné vizualizační možnosti. Volba nástroje závisí na specifických potřebách analýzy, požadované úrovni přizpůsobení a dostupnosti dat.

Závěrečné Myšlenky

S neustálým vývojem RNA-seq a bioinformatiky zůstávají Sashimi ploty základními nástroji pro vizualizaci genové exprese a sestřihu. Představením exonových struktur, intronů a sestřihových spojů v jediném, jednotném pohledu, umožňují vědcům vyvozovat informované závěry o genové funkci a regulaci. Ačkoli jsou pojmenovány po japonské pochoutce, Sashimi ploty jsou nyní základem v nástrojích bioinformatiků. Ať už s oborem začínáte, nebo jste zkušený výzkumník, Sashimi ploty poskytují jasný a přístupný způsob, jak prozkoumat složitý svět genového sestřihu a exprese.

Chceš-li si přečíst další články podobné jako Sashimi Ploty: Klíč k Vizualizaci RNA-seq Dat, navštiv kategorii Sushi.

Go up