Show simple item record

dc.contributor.authorKozłowski, Łukasz Paweł
dc.date.accessioned2018-06-13T07:11:15Z
dc.date.available2018-06-13T07:11:15Z
dc.date.issued2013-06-25
dc.identifier.urihttps://depot.ceon.pl/handle/123456789/15446
dc.description.abstractPrzewidywanie właściwości białek (np. struktury drugorzędowej, dostępności reszt dla rozpuszczalnika, helis transbłonowych) na podstawie sekwencji jest bardzo ważnym problemem biologii obliczeniowej. Obecnie istnieje wiele programów, jednak specyficzne wymagania instalacyjne, różna forma danych wejściowych i wyjściowych utrudniają znacząco interpretację wyników. Głowna część rozprawy opisuje metaserwer GeneSilico. Serwis ten pozwala na uruchomienie ponad 100 narzędzi bioinformatycznych i prezentuje wyniki w prostej, intuicyjnej formie. Pod kątem algorytmicznym, główny nacisk położono na przewidywanie regionów wewnętrznie nieuporządkowanych oraz domen w białkach. Pierwszy z problemów rozwiązano za pomocą meta-metodologii, według której mając co najmniej dwie metody możliwe jest stworzenie nowej metody łącząc dwie pierwsze. Główną trudnością tutaj jest integracja wyników pierwotnych metod w taki sposób, aby wzmocnić przewidywania prawdziwe obniżając przewidywania fałszywe jednocześnie. W tym celu wykorzystano algorytm genetyczny. Prezentowany program GeneSilico MetaDisorder wykorzystuje 13 innych programów do przewidywania regionów wewnętrznie nieuporządkowanych, 6 programów do rozpoznawania zwoju oraz dwa programy przewidujące strukturę drugorzędową. Program przetestowano w czasie eksperymentów CASP (ang. Critical Assessment of protein Structure Prediction), w roku 2008 i 2010 GeneSilico MetaDisorder został sklasyfikowany jako najlepszy tego typu program pokonując ponad 20 innych programów. Drugi z problemów, tj. przewidywanie domen białkowych, został rozwiązany za pomocą uczenia maszynowego (maszyna wektorów nośnych), które jako cechy wejściowe bierze typ i względne położenie aminokwasu, entropię Shannona, hydrofobowość, przewidywane kontakty między resztami, regiony wewnętrznie nieuporządkowane, strukturę drugorzędową oraz dostępność reszt dla rozpuszczalnika. Dodatkowo, algorytm uwzględnia informacje dotyczące domen w homologicznych białkach. Ostatecznie program ma ponad 81% skuteczność. Ponadto, w celu przetestowania prezentowanych metod na biologicznie istotnym przykładzie przeprowadzono szczegółową analizę ludzkich białek odpowiedzialnych za modyfikację końca 3ʹ mRNA. Wykazała ona m.in., że ponad 51% reszt aminokwasowych klasyfikowanych jest jako wewnętrznie nieuporządkowane (dla porównania średnia dla genomu ludzkiego wynosi 21%) oraz, że 44% reszt przynależy do obszarów domenowych homologicznych do domen w bazie PFAM. Ponadto, zbudowano modele strukturalne wszystkich 60 białek tworzących omawiany kompleks.pl
dc.description.abstractPrediction of protein features (e.g. secondary structure, solvent accessibility, transmembrane helices) from the sequence alone is a very important problem in computational biology. Currently, many programs are available, but the variability of the input and output format, specific requirements for installation etc., makes difficult to compare their results. The major part of thesis describes GeneSilico Metaserver. It is a web server enabling to run over 100 bioinformatics tools. It presents the results in simple and intuitive format. From the algorithmic point of view, the main effort was put on the predicting intrinsic disorder and domains in proteins. The first problem was solved by meta-methodology approach which states that having at least two programs, it is possible to construct new, better method by integrating primary methods. The main difficulty here is to combine the results from external programs as it elevates positives and decrease negatives. For this purpose, genetic algorithm was used. The method, called GeneSilico MetaDisorder, is using 13 disorder predictors, 6 fold recognition methods and two secondary structure predictors. The method was tested during CASP experiments (in 2008 and 2010 it was classified as the best method in competition with over 20 other programs). The second problem, i.e. prediction of protein domains, was solved by machine learning (support vector machines) which takes into account type and relative location of amino acid, Shannon entropy, and hydrophobicity, prediction of residue contacts, intrinsic disorder, secondary structure and solvent accessibility. Additionally, domain information from the homologous structures was used. The program has over 81% accuracy. Additionally, to test presented methods on real example, the detailed analysis of human pre-mRNA 3'-end processing proteins was done. It showed that over 51% of residues can be predicted as being intrinsically disordered (compared to 21% for the entire human proteome). On the other side, 44% of residues can be assigned to known domains with high confidence. Moreover, comparative protein models were built for all 60 proteins forming the complex.en
dc.description.sponsorshipPolish Ministry of Science and Higher Education
dc.language.isopl
dc.relationNN301 190139pl
dc.rightsUznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 3.0 Polska*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/pl/*
dc.subjectbioinformatykapl
dc.subjectbiałkapl
dc.subjectbiologia strukturalnapl
dc.subjectregiony nieuporządkowane białekpl
dc.subjectdomeny białkowepl
dc.subjectbiałka odpowiedzialne za modyfikację końca 3ʹ mRNApl
dc.subjectprzewidywanie cech białka na podstawie sekwencji aminokwasowejpl
dc.subjectuczenie maszynowepl
dc.subjectalgorytm genetycznypl
dc.subjectmaszyna wektorów nośnychpl
dc.subjectmeta-metodypl
dc.subjectmodelowanie homologicznepl
dc.subjectbioinformaticsen
dc.subjectproteinsen
dc.subjectstructural biologyen
dc.subjectintrinsically disordered proteinsen
dc.subjectprotein domainsen
dc.subject3ʹ mRNA processing proteinsen
dc.subjectstructural modelingen
dc.subjectpredicting protein features from sequenceen
dc.subjectmachine learningen
dc.subjectgenetic algorithmen
dc.subjectsupport vector machinesen
dc.subjectmeta-methodsen
dc.subjectcomparative modelingen
dc.titleZintegrowany serwis bioinformatyczny do analizy białek. Przewidywanie domen i miejsc pozbawionych struktury trzeciorzędowejpl
dc.title.alternativeIntegrated bioinformatics platform for protein analysis. Prediction of protein domain and intrinsic protein disorderen
dc.typedoctoralThesispl
dc.contributor.organizationMiędzynarodowy Instytut Biologii Molekularnej i Komórkowej w Warszawie, Instytut Biochemii i Biofizyki Polskiej Akademii Nauk w Warszawiepl


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 3.0 Polska
Except where otherwise noted, this item's license is described as Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 3.0 Polska