Desenvolvido na Universidade de Lisboa,
pelo
NLX e pelo CLUL
Mostrar etiquetas

Mostrar resultados por página, a começar em com palavras à esquerda e à direita

Para obter a sua janela de contexto de palavras à esquerda e à direita, clique num resultado.

Resultado da pesquisa

O concordanciador CINTIL online permite extrair do corpus contextos em que ocorrem as expressões pesquisadas.

A expressão pesquisada é inserida numa caixa de texto e os contextos são apresentados abaixo dessa caixa.

Quando a caixa "Mostrar traços" é seleccionada, o concordanciador mostra também a anotação linguística.

Para cada instância, esta anotação é mostrada entre parêntess retos, com ':' a separar cada campo de informação. Por exemplo, a anotação para o nome comum carros será mostrada assim:

keywords

Cabe notar que esta anotação é mostrada num formato ligeiramente diferente do formato usado no corpus que é distribuído. Para uma descrição deste último, ver aqui.

Por razões técnicas, para cada ocorrência, o contexto devolvido tem um máximo de 10 formas.

Igualmente por razões técnicas, não são apresentados todos os contextos em que ocorre a expressão pesquisada no corpus. A ordem de apresentação dos contextos não corresponde à ordem de ocorrência consecutiva no corpus. Os resultados do concordanciador CINTIL online podem continuar a ser usados como referência em trabalhos de investigação, uma vez que pesquisas idênticas terão sempre resultados idênticos.

Nos casos em que seja necessário ter acesso à totalidade dos contextos, o utilizador poderá adquirir uma cópia do corpus e correr localmente, sobre essa cópia, um concordanciador da sua preferência.

Pesquisa de formas ortográficas

Maiúsculas e minúsculas
A pesquisa é sensível às maiúsculas e minúsculas. Para uma pesquisa que ignora este aspeto, acrescentar /i no final da forma ortográfica:
  • ao pesquisar gato, obtêm-se ocorrências de gato
  • ao pesquisar gato/i, obtêm-se ocorrências de gato, Gato, GATO, etc.
Inclusão de formas maiores nos resultados
A pesquisa apenas dá como resultado formas exatamente iguais à pesquisada. Por exemplo, a pesquisa de gato não dará resultados em que gato é parte de uma palavra, pelo que não são apresentados contextos de regato ou obrigatoriamente.

Para permitir que a pesquisa inclua casos em que a expressão é uma parte de palavra, é necessário acrescentar /x após a forma ortográfica pesquisada (que pode ser combinada com a opção /i mencionada acima). Por exemplo:

  • gato apenas dá contextos da palavra gato
  • gato/x dá contextos de qualquer expressão que contenha a sequência gato, como obrigatoriamente
  • gato/xi dá os mesmos resultados do que a pesquisa anterior, não distinguindo maiúsculas e minúsculas
Contrações
No Corpus CINTIL, as contrações (por exemplo, daquela, aos, nas) são desdobradas e codificadas como duas unidades, em que a primeira é imediatamente seguida de um símbolo de traço inferior "_" (underscore) (por exemplo, de_ aquela, a_ os, em_ as).

Pesquisa de padrões regulares

É possível fazer pesquisas no corpus através da utilização de expressões regulares, desde que colocadas entre aspas. O concordanciador CINTIL segue os símbolos usuais estabelecidos para este tipo de pesquisa:

Alternância
Pesquisas alternativas são marcadas com uma barra vertical: |
  • "gato|peixe" dá como resultado todas as ocorrências de gato e todas as ocorrências de peixe
Conjuntos de caracteres
Um conjunto de caracteres entre parênteses retos dá como resultado ocorrências de qualquer um desses caracteres:
  • "gat[ao]" dá como resultado ocorrências de gata e de gato
  • "[pg]at[ao]" dá como resultado ocorrências de gata, gato, pata e pato

Um conjunto pode ser negado inserindo o símbolo ^ (acento circunflexo) imediatamente a seguir ao primeiro parêntese.

  • "[^abcd][efg]" dá como resultado ocorrências de dois caracteres, em que o primeiro não é a, b, c ou d e em que o segundo é e, f ou g
Ponto
O "." (ponto final) equivale a qualquer ocorrência de um só carácter (letra,dígito ou símbolo):
  • "gat.s" irá dar como resultado ocorrências de gatas, gatbs, gatcs, gat1s, etc.
Opcionalidade
O "?" (ponto de interrogação) permite assinalar a opcionalidade de qualquer carácter ou expressão que o precede:
  • "gatos?" dá como resultado gato e gatos.
Iteração
Há três formas diferentes de expressar a iteração. O operador * (asterisco) faz com que o carácter ou expressão que o precede seja realizado zero ou mais vezes:
  • "gat.*" dá como resultado qualquer palavra que começa por gat, incluindo a própria forma gat
  • ".*gato.*" dá como resultado qualquer palavra que contém a sequência gato (esta pesquisa é equivalente a gato/x)

O operador + (mais) é semelhante, mas requer que haja pelo menos uma ocorrência do carácter ou expressão que o precede:

  • "gat.+" dá como resultado qualquer palavra que começa por gat mas excluindo gat

Finalmente, {l,u} permite que o número de iterações esteja limitado por um valor mínimo (l) e um valor máximo (u). No entanto, qualquer um dos valores, mínimo ou máximo, pode ser omitido. Nestes casos, {l,} equivale a "pelo menos l vezes", {,u} equivale a "máximo de u vezes" e {n} equivale a "exatamente n vezes":

  • "gat.{2,4}" dá como resultado palavras que começam por gat e que têm entre 2 e 4 caracteres adicionais
  • "[^aer]{5,}" dá como resultado palavras sem a, e ou r, que têm 5 ou mais caracteres.
Agrupamento
Os parênteses são usados para agrupar expressões. Os operadores descritos acima podem assim aplicar-se ao conjunto da expressão entre parênteses como se fosse um único carácter:
  • "gat(inh)?o" dá como resultado gato e gatinho (i.e. a sequência inh a seguir ao t é opcional)
  • "ga(to)*" equivale a ga, gato, gatoto, gatototo, etc. (i.e. to pode ocorrer zero ou mais vezes)

Qualquer uma destas expressões pode também ser modificada por /i e /x, descritos acima. Por exemplo:

  • "ga.*"/i equivale a palavras que começam por ga, Ga, gA or GA
  • "(ra){2}"/x equivale a palavras que contêm duas ocorrências consecutivas de ra (como rara, mostraram, etc.)

Pesquisar informação linguística

Cada forma está associada a informação linguística, expressos através de etiquetas de anotação. Cada etiqueta consiste num campo (field) e seu valor (value) ([field=value]). Por exemplo, [gender=m], [time=pi], etc.

Cada campo (field) é instanciado por uma palavra-chave (keyword).

Os valores podem ser pesquisados com qualquer um dos métodos acima indicados:

  • [field=pattern] é o formato para esse tipo de pesquisas.

Os pares field-pattern podem ser combinados entre si através do uso de operadores lógicos: & ("e" comercial) para conjunção e | (barra vertical) para disjunção:

  • [field=pattern & field=pattern]
  • [field=pattern | field=pattern]

Além disso, o símbolo de negação ! (ponto de exclamação) permite pesquisar formas cujo valor do campo não está de acordo com o padrão estipulado:

  • [!field=pattern] é um dos formatos possíveis para expressar essa negação
  • [field!=pattern] é equivalente à pesquisa imediatamente anterior.

Forma ortográfica (novamente)

A própria forma ortográfica pode ser pesquisada através da keyword orth:

  • [orth=gato] procura formas com a forma ortográfica gato. Os resultados são idênticos aos da pesquisa simples por gato. A opção por este tipo de pesquisa pode ser útil quando se combina orth com outros campos (ver alguns exemplos mais abaixo)
  • [orth="gat.*" & orth!=gato] devolve formas que começam por gat, mas que não são gato

Categorias morfossintáticas

A pesquisa de uma palavra com determinada categoria morfossintática é feita através da keyword pos (part-of-speech):

  • [pos=cn] encontra formas com a etiqueta POS cn: nome comum (common noun)
  • [pos=cn & orth="ga.*"] devolve formas que são nomes comuns e que começam por ga
  • [pos="d.*"] acha formas que têm qualquer etiqueta POS desde que começada por d
  • [pos!=pnt] encontra formas que não são pontuação (etiqueta pnt)

Poderá consultar a lista de etiquetas morfossintáticas (POS) na aba "Etiquetas" no topo deste painel.

Flexão nominal

As keywords género e número têm, respectivamente, os valores f (feminino) ou m (masculino), e os valores s (singular) ou p (plural). Estes valores permitem pesquisar ocorrências com valores de flexão específicos:

  • [gender=f] pesquisa todos as formas com flexão do género feminino
  • [number=s & orth=".*s"] pesquisa todos as formas com flexão de número singular e que acabam com a letra s
  • [gender!=m] pesquisa todos as formas que não têm flexão de género masculino. O resultado desta pesquisa abrange palavras que não têm sequer flexão de género, como as preposições, a pontuação, os símbolos, etc.

Alguns tokens possuem anotação de grau, acessível através da keyword degree:

  • [degree=dim] pesquisa todas as formas com o grau diminutivo

Flexão verbal

Para pesquisar formas de acordo com os seus traços de flexão verbal, devem usar-se as keywords person (pessoa), time (tempo) e number (número):

  • [person="1"] pesquisa formas na primeira pessoa
  • [time="ppi"] pesquisa formas no Pretérito Perfeito do Indicativo
  • [person="3" & number="s" & time="fc"] pesquisa todas as formas de terceira pessoa singular do Futuro do Conjuntivo
  • [person!="1"] pesquisa formas que não têm flexão de primeira pessoa. Os resultados também incluem formas em relação aos quais não se aplica a flexão de pessoa, como no caso das preposições, da pontuação, dos símbolos, etc.

Poderá consultar a lista de etiquetas de flexão verbal na aba "Etiquetas" no topo deste painel.

Infinitivos podem ocorrer flexionados ou não flexionados. Para pesquisar esta informação deve usar-se a keyword inflection.

Lema

Para pesquisar palavras pelo seu lema, deve usar-se a keyword base:

  • [base=rato] pesquisa formas que têm rato como lema, tais como rato, ratos ou ratinho, etc.
  • [pos=cn & base=".*s"] pesquisa nomes comuns cujo lema acaba em s
  • [orth=foi & pos=v & base!=ir] pesquisa ocorrências da forma verbal foi que não pertencem ao lema ir

Entidade nomeada

Para pesquisar formas que sejam parte de uma expressão que nomeia uma entidade, deve usar-se a keyword iob:

  • [iob=B-LOC] pesquisa tokens que estejam no início (B-) de uma expressão que nomeia uma entidade com o tipo semântico "localização" (LOC).
  • [iob=I-PER] pesquisa tokens que estejam dentro (I-) de uma expressão que nomeia uma entidade do tipo "pessoa" (PER).

Poderá consultar a lista de etiquetas para entidades nomeadas na aba "Etiquetas" no topo deste painel.

Metadados

É possível usar metadados para restringir a pesquisa a um tipo específico de texto através do comando meta:

  • gato meta source=writtennews pesquisa a forma gato apenas nos documentos noticiosos (writtennews) do corpus
  • gato meta source="written.*" pesquisa a forma gato apenas na porção escrita do corpus (writtennews, writtenfiction e writtenother)

Pode consultar a lista dos campos e valores de metadados na aba "Referência rápida" no topo deste painel.

Pesquisa avançada

Através da combinação das diferentes opções de pesquisa descritas acima, é possível construir pesquisas avançadas como as que são de seguida exemplificadas:

  • situação[pos=adj] pesquisa ocorrências da forma situação seguida de adjetivo
  • [pos=da][pos=cn] pesquisa ocorrências de formas com a categoria morfossintática artigo definido seguidas de um nome comum
  • [pos=da][pos=adj]?[pos=cn] é semelhante à pesquisa anterior, mas permite a ocorrência opcional de um adjetivo (indicado pela etiqueta adj e pelo operador de opcionalidade "?") entre o artigo definido e o nome comum
  • [pos="cn|adj"]{3,} dá como resultado sequências que tenham pelo menos 3 adjetivos e nomes comuns consecutivos (em qualquer uma das ordens possíveis)
  • [pos=da][pos!=cn]{2,3}[pos=adj] dá como resultado sequências com um artigo definido seguido por 2 ou 3 formas que não sejam nomes comuns, seguidas por um adjetivo
  • ... etc.

Alinhar os resultados

É possível dividir o resultado de uma pesquisa em duas colunas para tornar os dados mais legíveis, usando o símbolo ^ (acento circunflexo):

  • [pos=da][pos!=cn]{2}^[pos=adj] pesquisa sequências com artigo definido seguido de duas formas que não sejam nomes comuns, seguidas de adjetivo. O artigo definido e as duas formas seguintes serão apresentados numa coluna, enquanto o adjetivo final será mostrado noutra coluna.

Resumo da sintaxe de pesquisa

Pesquisa simples
uma palavra devolve as suas ocorrências
Modificadores de pesquisa
/i pesquisa insensível às minúsculas/maiúsculas
/x pesquisa de subsequências
Expressões para caracteres
. qualquer carácter único
[ ] um dos caracteres de um conjunto
[^ ] nenhum dos caracteres de um conjunto
Operadores de repetição
? opcional
* zero ou mais vezes
+ uma ou mais vezes
{n} exatamente n vezes
{n,} n ou mais vezes
{,n} até n vezes
{m,n} de m a n vezes
Expressões combinadas
e1e2 e1 seguido de e2
| alternância
( ) junção
Pesquisa pela anotação
[keyword=expressão]
[keyword!=expressão]
[key1=exp1 & key2=exp2]
[key1=exp1 | key2=exp2]

As expressões regulares devem estar entre aspas.
As contrações são codificadas como duas formas, sendo a primeira concatenada com um traço inferior (underscore).

Resumo das etiquetas

Campo Palavra-chave Valores
Forma ortográfica orth qualquer
Etiqueta morfossintática pos quadro completo
Traços de flexão gender f, m, g
number s, p, n
degree dim, sup, comp
person 1, 2, 3
time quadro completo
inflection ifl, nifl
Lema base qualquer
Entidade nomeada iob quadro completo
Metadados source writtennews
writtenfiction
writtenother
spoken

Etiquetas morfossintáticas

Etiqueta Categoria Exemplos
ADJ Adjetivos bom, brilhante, eficaz, …
ADV Advérbios hoje, já, sim, felizmente, …
CARD Cardinais zero, dez, cem, mil, …
CJ Conjunções e, ou, tal como, …
CL Clíticos o, lhe, se, …
CN Nomes comuns computador, cidade, ideia, …
DA Artigos Definidos o, os, …
DEM Demonstrativo este, esses, aquele, …
DFR Denominadores de Frações meio, terço, décimo, %, …
DGTR Numerais Romanos VI, LX, MMIII, MCMXCIX, …
DGT Numerais Árabes 0, 1, 42, 12345, 67890, …
DM Marcadores Discursivos olá, …
EADR Endereços Eletrónicos http://www.di.fc.ul.pt, …
EOE Fim de Enumeração etc
EXC Exclamação ah, ei, …
GER Gerúndios sendo, afirmando, vivendo, …
GERAUX Gerúndio "ter"/"haver" em tempos compostos tendo, havendo
IA Artigos Indefinidos uns, umas, …
IND Indefinidos tudo, alguém, ninguém, …
INF Infinitivo ser, afirmar, viver, …
INFAUX Infinitivo "ter"/"haver" em tempos compostos ter, haver, …
INT Interrogativos quem, como, quando, …
ITJ Interjeições bolas, caramba, …
LTR Letras a, b, c, …
MGT Unidade de Medida unidade, dezena, dúzia, resma, …
MTH Meses janeiro, dezembro, …
NP Sintagmas Nominais idem, …
ORD Ordinais primeiro, centésimo, penúltimo, …
PADR Parte de Endereço Rua, av., rot., …
PNM Parte de Nome Lisboa, António, João, …
PNT Pontuação ., ?, (, …
POSS Possessivos meu, teu, seu, …
PPA Particípios passados que não formam tempos compostos sido, afirmados, vivida, …
PP Sintagmas Preposicionais algures, …
PPT Particípios passados em tempos compostos sido, afirmado, vivido, …
PREP Preposições de, para, em redor de, …
PRS Pronomes Pessoais eu, tu, ele, …
QNT Quantificadores todos, muitos, nenhum, …
REL Relativos que, cujo, tal que, …
STT Títulos Sociais Presidente, drª., prof., …
SYB Símbolos @, #, &, …
TERMN Terminações Opcionais (s), (as), …
UM "um" ou "uma" um, uma
UNIT Unidade de Medida Abreviada kg., km., …
VAUX Formas Finitas de "ter" ou "haver" em tempos compostos temos, haveriam, …
V Verbos (sem ser PPA, PPT, INF ou GER) falou, falaria, …
WD Dias da Semana segunda, terça-feira, sábado, …
Etiquetas para locuções
LADV1…LADVn Locuções Adverbiais de facto, em suma, um pouco, …
LCJ1…LCJn Locuções Conjuncionais assim como, já que, …
LDEM1…LDEMn Locuções Demonstrativas o mesmo, …
LDFR1…LDFRn Locuções Denominadoras de Frações por cento
LDM1…LDMn Locuções Marcadoras Discursivas pois não, até logo, …
LITJ1…LITJn Locuções Interjetivas meu Deus
LPRS1…LPRSn Locuções Pronominais Pessoais a gente, si mesmo, V. Exa., …
LPREP1…LPREPn Locuções Prepositivas através de, a partir de, …
LQD1…LQDn Locuções Quantificadoras uns quantos, …
LREL1…LRELn Locuções Pronominais Relativas tal como, …
Etiquetas específicas do corpus oral
EMP Enfático
EL Extralinguístico
PL Paralinguístico
FRG Fragmento

Etiquetas de Flexão

Etiqueta Descrição
Etiquetas para categorias nominais
m Masculino
f Feminino
g Género subespecificado
s Singular
p Plural
n Número subespecificado
dim Diminutivo
sup Superlativo
comp Comparativo
Etiquetas para verbos
1 Primeira Pessoa
2 Segunda Pessoa
3 Terceira Pessoa
pi Presente do Indicativo
ppi Pretérito Perfeito do Indicativo
ii Pretérito Imperfeito do Indicativo
mpi Pretérito Mais que Perfeito do Indicativo
fi Futuro do Indicativo
c Condicional
pc Presente do Conjuntivo
ic Pretérito Imperfeito do Conjuntivo
fc Futuro do Conjuntivo
imp Imperativo
Etiquetas para verbos no infinitivo
ifl Com Flexão
nifl Sem Flexão

Etiquetas de Entidades Nomeadas

Tipo semântico descrição exemplo
PER pessoa ...o[O] João[B-PER] Silva [I-PER] disse[O]...
ORG organização ...a[O] Universidade[B-ORG] de[I-ORG] Lisboa[I-ORG] comprou[O]...
LOC localização ...de[O] Londres[B-LOC] a[O] Paris[B-LOC]...
WRK obra ...a[O] Mona[B-WRK] Lisa[I-WRK] está[O]...
MSC outros casos ...o[O] RMS[B-MSC] Titanic[I-MSC] afundou[O]...