A modular metadata extraction system for born-digital articles
dc.contributor.author | Tkaczyk, Dominika | |
dc.contributor.author | Bolikowski, Łukasz | |
dc.contributor.author | Czeczko, Artur | |
dc.contributor.author | Rusek, Krzysztof | |
dc.date.accessioned | 2013-06-26T09:51:54Z | |
dc.date.available | 2013-06-26T09:51:54Z | |
dc.date.issued | 2012-03-27 | |
dc.identifier.other | 10.1109/DAS.2012.4 | |
dc.identifier.uri | http://depot.ceon.pl/handle/123456789/1972 | |
dc.description.abstract | We present a comprehensive system for extracting metadata from scholarly articles. In our approach the entire document is inspected, including headers and footers of all the pages as well as bibliographic references. The system is based on a modular workflow which allows for evaluation, unit testing and replacement of individual components. The workflow is optimized towards processing of born-digital documents, but may accept scanned document images as well. The machinelearning approaches we have chosen for solving individual tasks increase the ability to adapt to new document layouts and formats. The evaluation tests we have performed showed good results of the individual implementations and the entire metadata extraction process. | en |
dc.language.iso | en | en |
dc.rights | Dozwolony użytek | |
dc.subject | bibliographic reference parsing | en |
dc.subject | content classification | en |
dc.subject | page segmentation | en |
dc.subject | metadata extraction | en |
dc.title | A modular metadata extraction system for born-digital articles | en |
dc.type | info:eu-repo/semantics/conferenceObject | en |
dc.contributor.organization | Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski | en |
dc.description.eperson | Michał Łopuszyński |
Pliki tej pozycji
Pozycja umieszczona jest w następujących kolekcjach
Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.