Nature, том 616, страницы 543–552 (2023 г.) Процитировать эту статью
25 тысяч доступов
4 цитаты
89 Альтметрика
Подробности о метриках
Внутриопухолевая гетерогенность (ITH) способствует развитию рака легких, что приводит к уклонению от иммунитета и устойчивости к терапии1. Здесь, используя парные данные секвенирования цельного экзома и РНК, мы исследуем внутриопухолевое транскриптомное разнообразие в 354 опухолях немелкоклеточного рака легких у 347 из первых 421 пациента, проспективно включенных в исследование TRACERx2,3. Анализ 947 областей опухоли, представляющих как первичное, так и метастатическое заболевание, а также 96 образцов нормальной ткани, прилегающей к опухоли, указывает на то, что транскриптом является основным источником фенотипических вариаций. Уровни экспрессии генов и ITH связаны с закономерностями положительного и отрицательного отбора во время эволюции опухоли. Мы наблюдаем частую независимую от числа копий аллель-специфическую экспрессию, которая связана с эпигеномной дисфункцией. Аллель-специфическая экспрессия также может приводить к геномно-транскриптомной параллельной эволюции, которая приводит к разрушению раковых генов. Мы извлекаем признаки одноосновных замен РНК и связываем их этиологию с активностью ферментов редактирования РНК ADAR и APOBEC3A, тем самым выявляя необнаруженную иным образом продолжающуюся активность APOBEC в опухолях. Характеризуя транскриптомы пар первичных и метастатических опухолей, мы объединяем несколько подходов машинного обучения, которые используют геномные и транскриптомные переменные, чтобы связать потенциал распространения метастазов с эволюционным контекстом мутаций и повышенной пролиферацией в регионах первичной опухоли. Эти результаты подчеркивают взаимодействие между геномом и транскриптомом, влияющим на ITH, эволюцию рака легких и метастазирование.
Понимание причин межклеточных вариаций рака имеет важное значение для понимания эволюции опухоли. Недавняя работа подчеркнула, что большая часть этих вариаций является транскриптомной и возникает в результате различных механизмов, которые связаны с геномной вариацией или не зависят от нее4. На мышиных моделях немелкоклеточного рака легких (НМРЛ) было показано, что транскриптомная пластичность лежит в основе ITH5. В то время как геномная изменчивость отражает остатки прошлых соматических событий, приобретенных в ходе эволюционной истории опухоли, транскриптомная изменчивость может обеспечить точное приближение фенотипического состояния опухоли на момент взятия образца1. На сегодняшний день большинство исследований эволюции опухолей у людей сосредоточено на влиянии геномных изменений на рак. Транскриптомические исследования, в которых используются данные массового секвенирования опухолевой РНК (RNA-seq), как правило, фокусируются на амплитуде экспрессии генов в одной биопсии, взятой в один момент времени. Этот подход может не уловить плохо изученные транскриптомные процессы, включая аллель-специфическую экспрессию (ASE) и редактирование РНК, которые могут оказывать важное влияние на эволюцию рака1,4.
Здесь мы используем данные мультирегионального секвенирования пациентов, включенных в исследование TRACERx2, чтобы лучше понять влияние множества транскриптомных особенностей и их взаимодействие с геномным и фенотипическим разнообразием в эволюции НМРЛ в различных пространственных и временных масштабах.
Мы проанализировали совпадающие данные секвенирования РНК и секвенирования всего экзома у 347 пациентов, включенных в проспективное исследование TRACERx (группа TRACERx 421). Образцы из когорты включали 947 областей опухоли из 354 опухолей НМРЛ (6 пациентов имели множественные первичные опухоли на момент постановки диагноза), а также 96 прилегающих к опухоли областей нормальной легочной ткани (см. диаграмму объединенных стандартов отчетности об исследованиях (CONSORT) в дополнительной информации)6 ,7. Из этих пациентов у 344 было обнаружено 886 участков первичной опухоли, у 21 также было отобрано 29 участков метастатических лимфатических узлов (ЛУ) при хирургической резекции первичной опухоли, а у 24 пациентов было отобрано 30 участков метастатической опухоли при рецидиве или прогрессировании. Всего в когорте TRACERx 100 ранее было описано 168 областей первичной опухоли и 4 области LN от 64 пациентов из этой группы8. Проанализированная здесь когорта парных первично-метастатических областей (и описанная в сопутствующей статье6) включает 61 метастатическую область, включая области ЛУ и внутрилегочные метастазы, резецированные во время операции (далее называемые первичными ЛУ/сателлитными поражениями), а также ЛУ и метастатические области при рецидиве или прогрессировании.
1) was most readily observed within truncating mutations in genes in the highest expression tertile. Notably, within non-cancer genes, signals of negative selection (dN/dS ± 95% confidence intervals of <1) were identified within truncating mutations in genes within the highest expression tertile only (242 truncating mutations, relative to 3,932 observed truncating mutations, were estimated to have been lost through negative selection in these genes). Similar patterns were observed when dividing the data by different expression quantiles (Extended Data Fig. 1i)./p>8 reads (Methods). It was possible to evaluate ASE in a total of 16,378 different genes across all samples within the cohort at an average of 3,809 (s.d. ± 885) and 4,064 (s.d. ± 485) genes per tumour and normal tissue sample, respectively./p>G substitutions, in keeping with ADAR-linked RNA editing, which deaminates adenosine to inosine, a nucleotide that is then read as guanosine by the translation machinery26 and sequencing platforms. Of these substitutions, 65% were present in the REDIportal database27 of known A>G editing events in human tissues. C>T substitutions28 represented 11.8% of the total substitutions detected. Of all the RNA substitutions detected, 67% were tumour specific (not present within a TRACERx panel of samples of normal tissue), and of these, 29.4% were shared between two or more tumours./p>G transitions, whereas RNA-SBS2 consisted mainly of C>T transitions. RNA-SBS3 consisted mainly of A>G and T>C transitions, RNA-SBS4 of G>A transitions and RNA-SBS5 of G>T transversions. RNA-SBS1 and RNA-SBS3 were identified in most tumours (RNA-SBS1 in 98% and RNA-SBS3 in 85%). RNA-SBS1 exhibited the lowest ITH and was detected within all regions of 87.4% of multiregion tumours./p>G sites from REDIportal was highly similar to RNA-SBS1 (cosine similarity = 0.97), consistent with the A>G activity of ADAR underpinning RNA-SBS1./p>T transitions at TpC sites (67%), a motif consistent with the RNA editing activity of APOBEC3A (ref. 30). In keeping with this, an unbiased analysis showed that RNA-SBS2 correlated more strongly with APOBEC3A expression than with any other gene in the transcriptome (Pearson's r = 0.73, FDR = 4.7 × 10−108; Fig. 3d). A multiple linear regression considering all APOBEC enzymes revealed that the expression of APOBEC3A was the strongest independent predictor of RNA-SBS2 activity, although APOBEC3F was also significant (P = 2.6 × 10−57 and P = 0.01 for APOBEC3A and APOBEC3F, respectively, linear mixed-effects model). Investigating the link between RNA-SBS2 and C>T enrichment at APOBEC3A-specific motifs30,31 further confirmed that RNA-SBS2 was strongly influenced by APOBEC3A expression (Extended Data Fig. 3c,d). Associations between gene expression or genomic features and the activity of the three remaining RNA-SBS signatures did not produce any obvious explanations for their aetiology./p>40% of all genes with zero counts (estimated using the QoRTS output Genes_WithZeroCounts) were excluded. Additionally, samples with <20% of reads mapping to a genomic area covered by exactly one gene in a coding sequence genomic region (estimated using the QoRTS output ReadPairs_UniqueGene_CDS) were excluded. Next, RNA coverage was calculated for single nucleotide variants (SNVs) detected in matched whole-exome sequencing data per tumour region using SAMtools (v.1.9)61 mpileup. Mutation expression was used to further quality check the mapping of RNA reads. The expression of SNVs exclusive to a given tumour region was used to detect potential instances of within-patient mislabelling of RNA–DNA matched tumour regions as well as to exclude normal adjacent lung tissue regions that expressed mutations present in paired tumour regions. A similar approach was applied to germline SNPs to further assess potential sample swaps based on patterns of CN variation from matched DNA per tumour region. Tumour regions in which fewer than 10 mutations, or fewer than 25% of the total mutation count, had evidence of expression, and/or less than 10% of SNPs had evidence of biallelic expression, were excluded. Finally, tumour regions clustering with tumour-adjacent normal tissue regions (see the section ‘UMAP clustering’) and tumour regions with a low purity were also excluded from further analyses. To ensure the reproducibility and portability of the above pipeline, all steps described were implemented through the Nextflow (v.20.07.1)62 pipeline manager./p>0) were evaluated for an enrichment in driver mutations more commonly associated with LUADs./p> 0.5 as not significantly ASE. In the case of CN-dependent ASE, genes were required to show no significant ASE, irrespective of CN, to be categorized as not significantly ASE. Genes with no phasing information were not tested for ASE./p> 0.2). For each of these, we computed the number of CpGs that were significantly hypomethylated and hypermethylated in tumour samples compared to the normal samples, taking only loci that had coverage in all samples (minnormal = 10, mintumour = 3). We then calculated the fraction of differentially methylated positions that were hypomethylated. Using a linear mixed effects model, with tumour identity as random effect, we then compared this metric to the percentage of genes showing evidence of CN-independent ASE per sample (separately for LUAD and LUSC)./p>T events at known RNA-editing APOBEC motifs. APOBEC enzymes typically edit C>T variants at the fourth position of 4-nucleotide-long RNA hairpin loops. In particular, APOBEC3A favours the CAT[C>T] motif30,31./p>T variant site, a Fisher's test was performed to test whether C>T changes within 20 upstream or downstream nucleotides occurred more than expected by chance at specific motifs (CAT[C>T]) in either strand./p>0.2 CCF were considered as seeding for this analysis. In total, 516 primary tumour regions from 206 tumours for which seeding status could be established and for which all metrics tested could be measured (307 non-seeding regions, 209 seeding) were analysed. The following features were also considered for the classifier:/p> 0.75, n = 11). We one-hot-encoded categorical features using get_dummies from Pandas (v1.3.3)106 and then split the data into training and test datasets (75/25 split). After encoding, we had a total of 60 features. We scaled the continuous features using MinMaxScaler from sklearn.preprocessing (v.0.0)107 and used SMOTENC from imblearn.over_sampling (v.0.8.0)105 to improve the balance of the dataset in terms of numbers of seeding and non-seeding regions. Finally, we used the sklearn (v.0.0)105 framework to perform additional variable selection before training using a LinearSVC model (penalty = "l1"), keeping those features with importance ≥0.015. This threshold removed 15 out of 60 features. Following this initial pre-processing, we generated different subsets of the dataset depending on the source of the input features, thus downstream processes within the pipeline operated on three datasets: (1) genomic only features, (2) transcriptomic only features, and (3) all features./p>