Zintegrowany serwis bioinformatyczny do analizy białek. Przewidywanie domen i miejsc pozbawionych struktury trzeciorzędowej
Streszczenie
Przewidywanie właściwości białek (np. struktury drugorzędowej, dostępności reszt dla rozpuszczalnika, helis transbłonowych) na podstawie sekwencji jest bardzo ważnym problemem biologii obliczeniowej. Obecnie istnieje wiele programów, jednak specyficzne wymagania instalacyjne, różna forma danych wejściowych i wyjściowych utrudniają znacząco interpretację wyników. Głowna część rozprawy opisuje metaserwer GeneSilico. Serwis ten pozwala na uruchomienie ponad 100 narzędzi bioinformatycznych i prezentuje wyniki w prostej, intuicyjnej formie.
Pod kątem algorytmicznym, główny nacisk położono na przewidywanie regionów wewnętrznie nieuporządkowanych oraz domen w białkach. Pierwszy z problemów rozwiązano za pomocą meta-metodologii, według której mając co najmniej dwie metody możliwe jest stworzenie nowej metody łącząc dwie pierwsze. Główną trudnością tutaj jest integracja wyników pierwotnych metod w taki sposób, aby wzmocnić przewidywania prawdziwe obniżając przewidywania fałszywe jednocześnie. W tym celu wykorzystano algorytm genetyczny. Prezentowany program GeneSilico MetaDisorder wykorzystuje 13 innych programów do przewidywania regionów wewnętrznie nieuporządkowanych, 6 programów do rozpoznawania zwoju oraz dwa programy przewidujące strukturę drugorzędową. Program przetestowano w czasie eksperymentów CASP (ang. Critical Assessment of protein Structure Prediction), w roku 2008 i 2010 GeneSilico MetaDisorder został sklasyfikowany jako najlepszy tego typu program pokonując ponad 20 innych programów.
Drugi z problemów, tj. przewidywanie domen białkowych, został rozwiązany za pomocą uczenia maszynowego (maszyna wektorów nośnych), które jako cechy wejściowe bierze typ i względne położenie aminokwasu, entropię Shannona, hydrofobowość, przewidywane kontakty między resztami, regiony wewnętrznie nieuporządkowane, strukturę drugorzędową oraz dostępność reszt dla rozpuszczalnika. Dodatkowo, algorytm uwzględnia informacje dotyczące domen w homologicznych białkach. Ostatecznie program ma ponad 81% skuteczność.
Ponadto, w celu przetestowania prezentowanych metod na biologicznie istotnym przykładzie przeprowadzono szczegółową analizę ludzkich białek odpowiedzialnych za modyfikację końca 3ʹ mRNA. Wykazała ona m.in., że ponad 51% reszt aminokwasowych klasyfikowanych jest jako wewnętrznie nieuporządkowane (dla porównania średnia dla genomu ludzkiego wynosi 21%) oraz, że 44% reszt przynależy do obszarów domenowych homologicznych do domen w bazie PFAM. Ponadto, zbudowano modele strukturalne wszystkich 60 białek tworzących omawiany kompleks. Prediction of protein features (e.g. secondary structure, solvent accessibility, transmembrane helices) from the sequence alone is a very important problem in computational biology. Currently, many programs are available, but the variability of the input and output format, specific requirements for installation etc., makes difficult to compare their results. The major part of thesis describes GeneSilico Metaserver. It is a web server enabling to run over 100 bioinformatics tools. It presents the results in simple and intuitive format.
From the algorithmic point of view, the main effort was put on the predicting intrinsic disorder and domains in proteins. The first problem was solved by meta-methodology approach which states that having at least two programs, it is possible to construct new, better method by integrating primary methods. The main difficulty here is to combine the results from external programs as it elevates positives and decrease negatives. For this purpose, genetic algorithm was used. The method, called GeneSilico MetaDisorder, is using 13 disorder predictors, 6 fold recognition methods and two secondary structure predictors. The method was tested during CASP experiments (in 2008 and 2010 it was classified as the best method in competition with over 20 other programs).
The second problem, i.e. prediction of protein domains, was solved by machine learning (support vector machines) which takes into account type and relative location of amino acid, Shannon entropy, and hydrophobicity, prediction of residue contacts, intrinsic disorder, secondary structure and solvent accessibility. Additionally, domain information from the homologous structures was used. The program has over 81% accuracy.
Additionally, to test presented methods on real example, the detailed analysis of human pre-mRNA 3'-end processing proteins was done. It showed that over 51% of residues can be predicted as being intrinsically disordered (compared to 21% for the entire human proteome). On the other side, 44% of residues can be assigned to known domains with high confidence. Moreover, comparative protein models were built for all 60 proteins forming the complex.
Kolekcje
Z tą pozycją powiązane są następujące pliki licencyjne:
Poza zaznaczonymi wyjątkami, licencja tej pozycji opisana jest jako Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 3.0 Polska
Powiązane pozycje
Wyświetlanie pozycji powiązanych tytułem, autorstwem i tematem.
-
The Nutritional Value and Biological Activity of Concentrated Protein Fraction of Potato Juice
Kowalczewski, Przemysław Łukasz; Olejnik, Anna; Białas, Wojciech; Rybicka, Iga; Zielińska-Dawidziak, Magdalena; Siger, Aleksander; Kubiak, Piotr; Lewandowicz, Grażyna (MDPI, 2019-07-04)Potato protein is recognized as one of the most valuable nonanimal proteins due to the high content of essential amino acids. So far, it has not been used in human nutrition on a large scale due to technological limitations ... -
Quality and Nutritional/Textural Properties of Durum Wheat Pasta Enriched with Cricket Powder
Duda, Adamina; Adamczak, Julia; Chełmińska, Paulina; Juszkiewicz, Justyna; Kowalczewski, Przemysław Łukasz (MDPI, 2019-02-01)Cricket powder (CP) contains significant amounts of protein, fat (including unsaturated fatty acids), and fiber, as well as vitamins and minerals. The high nutritional value and low price make it an interesting addition ... -
Bovine Serum Albumin as a Platform for Designing Biologically Active Nanocarriers—Experimental and Computational Studies
Adamczyk, Olga; Szota, Magdalena; Rakowski, Kamil; Prochownik, Magdalena; Doveiko, Daniel; Chen, Yu; Jachimska, Barbara (MDPI, 2023-12-19)Due to the specificity of their structure, protein systems are adapted to carry various ligands. The structure of many proteins potentially allows for two types of immobilization of a therapeutic agent, either on the outer ...