Scientific Reports volume 12, Número do artigo: 18487 (2022) Citar este artigo
784 acessos
3 Altmétrica
Detalhes das métricas
O uso do sequenciamento do exoma para descoberta de biomarcadores e medicina de precisão requer a conexão da variação no nível de nucleotídeos com alterações funcionais nas proteínas codificadas. No entanto, para anotar funcionalmente as milhares de mutações sem sentido associadas ao câncer, ou variantes de significado incerto (VUS), a purificação de proteínas variantes para análises bioquímicas e funcionais tem custo proibitivo e é ineficiente. Descrevemos a anotação funcional paralela (PFA) de grandes números de VUS usando pequenas culturas e extratos brutos em placas de 96 poços. Usando membros de uma família de histonas metiltransferases, demonstramos anotações estruturais e funcionais de alto rendimento de mutações associadas ao câncer. Ao combinar anotação funcional de parálogos, descobrimos dois parâmetros filogenéticos e de agrupamento que melhoram a precisão das previsões funcionais baseadas em sequência para mais de 90%. Nossos resultados demonstram o valor do PFA para definir funções oncogênicas/supressoras de tumor de metiltransferases de histonas, bem como aumentar a precisão de algoritmos baseados em sequência na previsão dos efeitos de mutações associadas ao câncer.
A anotação funcional de mutações associadas ao câncer é um desafio1,2. A maioria das mutações missense ocorre em posições sem função conhecida, impedindo a identificação de mutações de motorista versus neutro (passageiro). Os métodos atuais de anotação funcional usam a conservação da sequência de nucleotídeos e aminoácidos (aa) para prever a patogenicidade mutacional3,4,5. A validação depende da divergência mutante nas cadeias laterais aa em comparação com o tipo selvagem e estima estatisticamente a probabilidade de seleção positiva em relação à taxa de mutação de fundo6. No entanto, alterar um aa conservado nem sempre altera a função. Algoritmos que incorporam informações estruturais e termodinâmicas em previsões funcionais7,8 são limitados pela escassez de informações estruturais para estados conformacionais e ligantes de proteínas. Prever o impacto da substituição de aa na função é difícil para proteínas em complexos. As previsões melhoram para proteínas bem caracterizadas, mas essas informações requerem purificação e caracterização de proteínas caras e demoradas. Saber quais mutações conduzem ao câncer é crucial para priorizar estudos baseados em células e animais, mas os programas de previsão funcional não podem orientar de forma confiável esses experimentos de alto custo6,9.
Descrevemos a anotação funcional paralela (PFA) para caracterização de alto rendimento de variantes missense associadas ao câncer de significado incerto (VUS) sem purificação de proteínas. Demonstramos o valor do PFA com três metiltransferases da família da Leucemia de Linhagem Mista (MLL) histona H3 lisina 4 (H3K4) que estão entre os genes mutados com mais frequência no câncer (Fig. S1A)10,11,12,13,14,15, 16,17,18,19,20. Mutações nas enzimas da família MLL estão associadas a aberrações em todo o genoma nos padrões de metilação H3K4, que estão ligadas a programas transcricionais anormais que promovem malignidade18,21,22,23. De centenas de MLL1-3 VUS, a maioria está em posições de aminoácidos sem função conhecida (Fig. S1B). Nós rastreamos 99 mutações missense associadas ao câncer em ou ao redor dos domínios catalíticos Suppressor of Variegation, Enhancer of Zeste, Trithorax (SET), comparando os resultados com dois programas de predição funcional amplamente utilizados. Usando a anotação funcional de três parálogos MLL, descobrimos que a combinação de dois parâmetros filogenéticos e de agrupamento melhorou a precisão da previsão funcional baseada em sequência para > 90%. Esses resultados fornecem uma base para melhorar os métodos computacionais para prever efeitos funcionais de mutações associadas ao câncer para descoberta de biomarcadores e medicina de precisão.
Para entender melhor como as ferramentas preditivas categorizam as mutações missense clinicamente relevantes em famílias de enzimas frequentemente mutadas, analisamos funcionalmente o VUS nos domínios SET catalíticos de MLL1-3 (Fig. 1), comparando os resultados com três programas de predição computacional amplamente utilizados. As enzimas MLL catalisam a metilação da histona H3 lisina 4 (H3K4)24. As alterações estão associadas a aberrações genômicas na metilação ligadas à malignidade. MLL1-3 estão entre os genes mais comumente mutados em vários cânceres25,26. De centenas de MLL1-3 VUS, a maioria está em posições de aminoácidos sem função conhecida (Fig. S1).
50% of WT. Error bars, standard deviation from 2 independent experiments. (C) Representative results from PFA for MLL3 VUS mutations by fluorography of SDS-PAGE. Upper, Coomassie-stained gel of quenched enzymatic reactions; middle, signal from reactions with H3K4me0 (unmethylated) or H3K4me1 (monomethylated) peptides; bottom, expression of MLL3 variants by Coomassie-stained SDS-PAGE. Assays were as described for Fig. 1, limiting the recombinant subunits required for full enzymatic activity31,32,33 to minimize activity variation from differing MLL expression. Rates of monomethylation and dimethylation were determined using unmodified or monomethylated substrates. Activity depended on recombinant expression (no activity in uninduced control, UIC, lane 1). Lanes 2–11 show representative wild-type (WT) and variant MLL3 complexes, demonstrating that activity variation cannot be explained by differential expression. An uncropped version of Fig. 2C is shown in Fig. S11./p> 50% of wild-type with FATHMM scores > − 0.75. The third region representing false-negative (FN) predictions (48% of mutations) had activity < 50% wild-type and FATHMM scores indicating no disease./p> 0.8 "probably damaging", 0.2 to 0.8 "possibly damaging", < 0.2 benign). (C) CancerVar OPAI scores vs. relative activity of VUS. Vertical line,default threshold (< 0.95) for variants with uncertain probability of oncogenicity. (D) Violin plot of mean activity differences between VUS with low (< 1.5) or high (> 1.5) parallel cluster scores (pClustScore). Significance was from 2-tailed unpaired t-tests. Dashed line, median; dotted lines, upper and lower quartiles. (E) Variant ProxRatioEach scores showing proximity of adjacent missense mutations in each protein, plotted as a function of amino acid position using Mixed Lineage Leukemia (MLL) 1 numbering. (F) Clustal Omega phylogenetic cluster analysis of human SET1/MLL proteins shows three clades diverged in product specificity (me1, 2, 3 is degree of methylation)33. (G) Comparison of family vs. versus clade conservation scores in PolyPhen-2 false-positive (FP) and true-positive (TP) amino acid positions. Two-way ANOVA compared means within groups. ****P < 0.0001; ns, P > 0.05./p> 0.8, predicting "probably damaging." Mutations with activity < 50% of wild-type (53.5% of total) represented TP predictions. All but 4 of the remaining (42% of total) with activity > 50% of wild-type represent FP predictions. PoylPhen-2 incorporated structural information into the predictions7, but in contrast to FATHMM, lacked precision to adequately distinguish FP from TN inferences./p> 50% of wild-type represent FP (18%) and TN (29%) predictions./p> 50% of WT. Mut, mutant. (B) Recursive partitioning classification tree for enzymatic activity using FI-score, pClustScore, ΔAtoms, Blosum62 and ΔΔG parameters for MLL1-3 VUS. Circles, internal nodes that can be partitioned into subnodes; boxes, terminal nodes; red, VUS with activity ≤ 50% of WT; blue, VUS with activity > 50% of WT. Circles, P values input nodes; box plots of Activity(MT/WT) values are in terminal nodes. (Goodness of Fit R2 = 0.65, RMSE = 0.22) (C) Confusion matrix showing predictive accuracy of the tree based on the tenfold cross-validation scheme. The recursive partitioning algorithm was repeated85 with 10 rounds of fitting, each using randomly chosen data subsets, with 90% training set and 10% testing set. D-G) Actual vs. Predicted plots. X-axes, actual activity; y-axes, predicted activity based on the regression model. Red diagonal line, line of identity; dashed lines, cutoff for VUS with less than or greater than 50% WT activity. (D) FI-Score and pClustScore parameters as predictors. (E) FATHMM inference score as predictor. (F) PolyPhen-2 inference score as predictor. (G) CancerVar Oncogenic Prioritization by Artificial Intelligence (OPAI) score as predictor. Shown are adjusted R2 values./p> 3.005 were correctly classified as LOF with very low activity (P < 0.001). For VUS variants with FI-Scores ≤ 3.005, pClustScore became the major factor distinguishing high- vs. low-activity variants. Blosum62, ΔAtoms and ΔΔG parameters were not significant. Thus, combining FI-Score and pClustScore was significantly better at predicting the functional impact of VUS mutations (R2 = 0.63) than FATHMM (R2 = 0.0002), PolyPhen-2 (R2 = 0.05) or CancerVar (R2 = 0.001) (Fig. 5D–G)./p> 95% purity. For methyltransferase assays, an equal volume of wild-type or mutant lysate was incubated with 3 µM WRAD, 250 µM H3 peptide (unmodified or monomethylated), and 1–2 µCi [3H]-SAM (PerkinElmer Life Sciences) in assay buffer (20 mM Tris pH 8.5, 1 mM TCEP, 200 mM NaCl, 1 µM ZnCl2). Samples were incubated at 15 °C for 30 min. Lysates from cells transformed with empty vector (pGST II) or uninduced wild-type plasmids served as negative controls. Reactions were quenched with 0.5 M EDTA (1:1, v:v). Quenched reactions were brought to 200 µL using assay buffer with 0.5 M EDTA and 0.2 mg/ml BSA and transferred to 96-well streptavidin-coated FlashPlate microplates (PerkinElmer). Samples were incubated overnight at 4 °C to allow binding of biotinylated H3 peptide to the streptavidin-coated surface before scintillation counting in a Hidex Sense Plus microplate reader (LabLogic). For the gel-based fluorography assays, reactions were quenched with SDS-loading buffer and separated by 4–12% BisTris SDS-PAGE (LifeTechnologies) at 200 V for 30 min. Gels were stained with Coomassie, imaged, then placed in enhancing solution (Enlightening, PerkinElmer Life Sciences) for 30 min at room temperature. Gels were dried for 2.5 h at 72 °C under constant vacuum and exposed to film (Eastman Kodak Co. Biomax MS Film) at − 80 °C for 6–72 h before developing. Densitometry using ChemiDoc ImageLab (BioRad) software was used to quantify H3 peptide methylation./p>