O artigo "Tagsets and Datasets: Some Experiments Based on Portuguese Language” de co-autoria do professor Alexandre Rademaker da Escola de Matemática Aplicada (FGV EMAp) com Claudia Freitas (PUC-Rio), Luiza F. Trugo (PUC-Rio), Fabricio Chalub (IBM Research) e Guillherme Paulino-Passos (IBM Research e ex-aluno EMAp), recebeu o prêmio de melhor artigo na International Conference on Computational Processing of the Portuguese Language (PROPOR 2018) realizada no Rio Grande do Sul, de 24 a 26 de setembro.
O estudo discute o impacto de diferentes tipos de marcações morfossintáticas de palavras no processamento automático de textos (PLN, processamento de linguagem natural por computadores). Trata-se de um estudo multidisciplinar, linguístico e computacional, usando coleções de textos. O trabalho é parte do projeto de expansão do treebank Português incluído na iniciativa Universal Dependencies (UD). Treebanks são coleções de textos separados em sentenças com anotações morfossintáticas usados para treinamento de ferramentas de processamento de texto.
Universal Dependencies agrega mais de 200 pesquisadores ao redor do mundo na construção de mais de 100 treebanks em 60 diferentes línguas. Trata-se de um enorme esforço para construção de dados de forma consistente em diferentes idiomas para o avanço da área de PLN. O projeto inclui pesquisadores de Stanford, Google, IBM, entre grandes empresas e universidades ao redor do mundo.