Generation of full-length mRNA transcriptome and miRNA target prediction resources utilized in the study of miRNAs associated with response to Moritella viscosa infection in Atlantic salmon
Doctoral thesis
Published version
Permanent lenke
https://hdl.handle.net/11250/3175154Utgivelsesdato
2025Metadata
Vis full innførselSamlinger
Sammendrag
Atlantic salmon (salmo salar) is an important aquaculture species around the world. Infectious diseases, including the bacterial pathogen Moritella viscosa, which causes Winter Ulcer disease, remains a significant issue for salmon aquaculture. As part of the efforts to counter these problems, researchers have studied the genetic component of the Atlantic salmon’s disease response to viral and bacterial pathogens. MicroRNAs (miRNAs) are regulatory non-coding RNAs that play important roles across many species in fine-tuning the expression levels of proteins through targeted binding to mRNA transcripts. Included among the transcripts they regulate are many which encode immune-pathway proteins. The study of which genes are post-transcriptionally regulated by miRNAs in Atlantic salmon has, however, been hampered by the lack of access to 3’UTRs from full-length (FL) sequenced mRNA transcripts. An evolutionarily recent whole-genome duplication event in salmonids makes the short-read sequencing methods less reliable at producing such information, as these methods are less capable at differentiating between transcripts that are splice variants of each other or are from highly similar paralogs. We developed a generalized bioinformatics pipeline for the generation and functional annotation of full-length transcriptomes based on hybrid-corrected PacBio long-read SMRT sequencing to address the lack of full-length resources. This pipeline was employed to produce a de novo transcriptome for Atlantic salmon consisting of 71 461 FL sequenced mRNAs from 23 071 loci. Comparisons to the existing transcriptome resources revealed that the FL-transcriptome verified many of the predicted transcripts in the refseq database (25% of reference). However, the majority of the transcripts (70% of the FL-transcriptome) were novel splice variants or from uncharacterized paralogs. All transcripts in the FL-transcriptome unambiguously tied the UTR sequences to the CDS of the specific isoform or paralog variants. Capitalizing on this, all the unique 3’UTR sequences from the mRNA transcriptome were extracted in silico and used in miRNA target gene prediction analysis. The target prediction analysis utilized a weighted hybrid verification approach where each predicted target transcript had to be supported by the RNAHybrid algorithm as well as at least two of three other common target prediction tools. The complete set of target gene predictions, published as the MicroSalmon database, allowed users to search for the predicted targets of each of the Atlantic salmon miRNA along with their functional annotations. Known and putative novel cis-regulatory motifs present in the 3’UTR of each of the FL-transcripts were also characterized and may be searched for in the database. Differential expression studies of miRNAs (small RNA sequencing) and mRNAs (microarrays) identified 52 guide miRNAs and ~4500 protein coding transcripts associated with M. viscosa infection. The observation of concurrent changes in expression levels (both miRNAs and mRNAs) helped identify input lists for MicroSalmon, and predicted target genes of the disease responding guide miRNAs were identified among the differentially expressed protein coding transcripts. These functionally annotated target genes were subsequently used in enrichment analyses. These revealed that target transcripts of the disease-associated miRNAs were significantly overrepresented in gene networks associated with immune response, response to bleeding, wound healing, cell cycle control and response to stress. The distribution of enriched biological functions seemed to be partially tissue-specific, with headkidney materials expressing genes related to haemostasis and general immune responses, while the lesion site materials showed enrichment of genes related to death and breakdown of infected cells and the growth of new cells. Several orthologs of the conserved disease responding miRNAs displayed similar disease-related responses in other species, supporting them having the same roles in Atlantic salmon. These miRNAs also included teleost-specific immune miRNAs like miR-2188 and miR-7132. In conclusion, this study provided important new knowledge suggesting that certain miRNAs have important functions in response to bacterial infections. The findings may be utilized in future studies investigating whether the disease responding miRNAs have potential as infection biomarkers, as therapeutic tools, or as biomarkers in marker assisted breeding.
Laks (salmo salar) er en viktig oppdrettsart for akvakulturnæringen. En av utfordringene for oppdrettslaks og villaks er smittsomme sykdommer. Blant disse er bakterien Moritella viscosa som forårsaker vintersår. Denne sykdommen forårsaker redusert livskvalitet og høy dødelighet blant oppdrettslaks. Som en del av arbeidet for å bekjempe denne typen sykdommer har forskere studert det genetiske grunnlaget for laksens respons på infeksiøse sykdommer. En type gener av særlig interesse er mikroRNA (miRNA). Disse spiller en viktig rolle i regulering og finjustering av ekspresjons-nivået til bestemte proteiner i mange arter ved å lede et stort enzymkompleks til spesifikke mRNA-transkripter (målgener). Mange slike målgener er nøkkelgener i immun-gen nettverk. Det har til nå vært vanskelig å studere funksjonene til miRNA i laks fordi målgenene er lite kjent. Dette skyldes blant annet manglende tilgang på 3’UTRer fra full-lengde sekvenserte transkripter. Karakterisering av kodende gener har generelt vært særlig utfordrende i laks på grunn av en salmonide-spesifikk hel-genom duplisering. Massiv parallell-sekvenserings metoder, som til nå har vært benyttet for å sekvensere transkripter, har ikke vært gode verktøy for å karakterisere transkripter når genomet, etter en slik relativt nylig hel-genom duplisering, har mange nesten identiske paraloge gener og pseudogener. I dette prosjektet benyttet vi hybrid-korrigering av PacBio SMRT-sekvenserte transkripter og en egenutviklet bioinformatikk-pipeline for å generere et de novo full-lengde mRNA transkriptom med komplette UTRer. Denne transkriptom-ressursen med 71 461 komplette transkripter fra 23 071 loci ga eksperimentell verifisering av 25% av referansetranskriptene for laks i refseq databasen. De fleste av transkriptene var imidlertid nye varianter av kjente gener (70% av transkriptomet). UTR-sekvensene til disse transkriptene og alle kjente miRNA fra laks ble benyttet i in silico prediksjoner for å finne sannsynlige målgener for hvert enkelt miRNA. Denne metoden var basert på vektet gjensidig bekreftelse, slik at hvert målgen var støttet av RNAhybrid-algoritmen samt minst to av de tre lignende prediksjonsalgoritmene vi benyttet for målgenprediksjoner. Det endelige settet med målgener for hvert miRNA ble publisert som en søkbar database (MicroSalmon). Denne databasen lar også brukere søke opp den funksjonelle (biologiske) annoteringen for alle de ulike målgenene. Databasen inneholder videre en oversikt over andre kjente og potensielt nye cis-regulatoriske elementer i UTR sekvensen til alle laksetranskriptene. Disse ble også identifisert via in silico metoder. Full-lengde transkriptomet og MikroSalmon var essensielle ressurser som ble benyttet i siste del av prosjektet. I denne delen identifiserte vi miRNA og proteinkodende gener som endret uttrykk i fisk smittet med M. viscosa. Disse analysene identifiserte 52 biologisk viktige miRNA (guide miRNA) og ~4500 mRNA som responderte på infeksjon med M. viscosa. De samtidige endringene i ekspresjonsnivå mellom miRNA og mRNA ble lagt til grunn for identifikasjon av målgener for de 52 guide miRNAene. Søk etter målgener i MicroSalmon ble derfor begrenset til de ~4500 M. viscosa-responderende transkriptene. Målgenene ble videre brukt i anrikelses-analyser som bekreftet at miRNA målgenene var overrepresentert i immungen nettverk og andre prosesser relatert til sykdomsrespons som sårheling, celledød, og respons til stress og blødning. Denne responsen fremstår som delvis organspesifikk. Det var en overvekt av gener relatert til generelle immunfunksjoner og produksjon av nytt blod i hodenyreprøver, mens hud og muskelprøvene nær sår hadde en overvekt av gener relatert til celledød og vekst av nytt vev. Disse resultatene samsvarer godt med studier fra andre arter, som også indikerte at mange av miRNAene identifisert som sykdomsresponderende i laks har viktige roller i lignende prosesser selv i fjernt beslektede arter. Analysene identifiserte også noen sykdomsresponderende miRNA som er spesifikke for teleost-fisker, deriblant miR-2188 og miR-7132. Denne studien gir ny viktig kunnskap om rollene til mange miRNA i respons på bakterielle infeksjoner i laks. Disse funnene kan legges til grunn for undersøkelser av fremtidig anvendelse av disse miRNAene ved biomarkør-assistert oppdrett av laks, eller som diagnostiske infeksjonsmarkører. Manipulering av deres uttrykk kan potensielt også være et terapeutisk virkemiddel som kan redusere skadevirkningene av M. viscosa-smitte i oppdrettsnæringen.