Porttinari – PORTuguese Treebank

Porttinari

Porttinari-base (Duran et al., 2023) is the journalistic portion of Porttinari (which stands for “PORTuguese Treebank”), which shall be a large multigenre treebank for Portuguese (Pardo et al., 2021), following the "Universal Dependencies" international grammar framework (de Marneffe et al., 2021).

As reported by Duran et al., (2023), Porttinari is currently composed by three subcorpora with different characteristics and purposes:

· Porttinari-base (released here), a corpus that is manually revised in detail to serve as gold standard (divided into training, development and test folds), with average annotation review agreement (kappa) of 97.8% and 96.2% for part of speech tags and dependency relations, respectively. It has 8,418 sentences and 168,080 tokens;

· Porttinari-check, a small corpus structurally similar to Porttinari-base to serve as testbed for additional and diversified evaluations and to illustrate the contrast between manual and automatic annotations. It has 1,685 sentences and 33,576 tokens;

· Porttinari-automatic, a very large corpus that was automatically annotated by a state of the art parser trained on Porttinari-base. It has 3,954,218 sentences and 94,444,424 tokens.

The texts in the treebank are from Folha de São Paulo newspaper, which are publicly available at Kaggle website.

For the interested reader, Porttinari-check and Porttinari-automatic, as well as other related information, may be accessed at https://sites.google.com/icmc.usp.br/poetisa/porttinari

View resource description in all available languages

Porttinari-base (Duran et al., 2023) é a porção jornalística do Porttinari (que significa “PORTuguese Treebank”), que será um grande treebank multigênero para o português (Pardo et al., 2021), seguindo a estrutura gramatical internacionao do "Universal Dependencies" (de Marneffe et al., 2021).

Conforme relatado por Duran et al., (2023), Porttinari é atualmente composto por três subcorpora com características e finalidades distintas:

· Porttinari-base (divulgado aqui), corpus que é revisado detalhadamente manualmente para servir como padrão ouro (dividido em treinamento, desenvolvimento e teste), com concordância média de revisão de anotação (kappa) de 97,8% e 96,2% para parte do tags de fala e relações de dependência, respectivamente. Possui 8.418 sentenças e 168.080 tokens;

· Porttinari-check, um pequeno corpus estruturalmente semelhante ao Porttinari-base para servir como base de teste para avaliações adicionais e diversificadas e para ilustrar o contraste entre anotações manuais e automáticas. Possui 1.685 sentenças e 33.576 tokens;

· Porttinari-automatic, um corpus muito grande que foi anotado automaticamente por um analisador de última geração treinado em Porttinari-base. Possui 3.954.218 sentenças e 94.444.424 tokens.

Os textos do treebank são do jornal Folha de São Paulo, que estão disponíveis publicamente no site Kaggle.

Para o leitor interessado, Porttinari-check e Porttinari-automatic, bem como outras informações relacionadas, podem ser acessadas em https://sites.google.com/icmc.usp.br/poetisa/porttinari

Download


People who looked at this resource also viewed the following:
People who downloaded this resource also downloaded the following: