S1000 - Staff

Novo Nordisk Foundation
Center for Protein Research

S1000: a better taxonomic name corpus for biomedical information extraction

Research output: Contribution to journal › Journal article › Research › peer-review

Documents

Fulltext
Final published version, 772 KB, PDF document

Jouni Luoma
Nastou, Katerina
Tomoko Ohta
Harttu Toivonen
Evangelos Pafilis
Jensen, Lars Juhl
Sampo Pyysalo

Motivation: The recognition of mentions of species names in text is a critically important task for biomedical text mining. While deep learning-based methods have made great advances in many named entity recognition tasks, results for species name recognition remain poor. We hypothesize that this is primarily due to the lack of appropriate corpora. Results: We introduce the S1000 corpus, a comprehensive manual re-annotation and extension of the S800 corpus. We demonstrate that S1000 makes highly accurate recognition of species names possible (F-score =93.1%), both for deep learning and dictionary-based methods.

Original language	English
Article number	btad369
Journal	Bioinformatics
Volume	39
Issue number	6
Number of pages	8
ISSN	1367-4803
DOIs	https://doi.org/10.1093/bioinformatics/btad369
Publication status	Published - 2023

Bibliographical note

ID: 360982850

Novo Nordisk Foundation Center for Protein Research

S1000: a better taxonomic name corpus for biomedical information extraction

Documents

Bibliographical note