Resultado da pesquisa
O concordanciador CINTIL online permite extrair do corpus contextos em que ocorrem as expressões pesquisadas.
A expressão pesquisada é inserida numa caixa de texto e os contextos são apresentados abaixo dessa caixa.
Quando a caixa "Mostrar traços" é seleccionada, o concordanciador mostra também a anotação linguística.
Para cada instância, esta anotação é mostrada entre parêntess retos, com
':' a separar cada campo de informação. Por exemplo, a anotação para o nome
comum carros será mostrada assim:

Cabe notar que esta anotação é mostrada num formato ligeiramente diferente do formato usado no corpus que é distribuído. Para uma descrição deste último, ver aqui.
Por razões técnicas, para cada ocorrência, o contexto devolvido tem um máximo de 10 formas.
Igualmente por razões técnicas, não são apresentados todos os contextos em que ocorre a expressão pesquisada no corpus. A ordem de apresentação dos contextos não corresponde à ordem de ocorrência consecutiva no corpus. Os resultados do concordanciador CINTIL online podem continuar a ser usados como referência em trabalhos de investigação, uma vez que pesquisas idênticas terão sempre resultados idênticos.
Nos casos em que seja necessário ter acesso à totalidade dos contextos, o utilizador poderá adquirir uma cópia do corpus e correr localmente, sobre essa cópia, um concordanciador da sua preferência.
Pesquisa de formas ortográficas
- Maiúsculas e minúsculas
- A pesquisa é sensível às maiúsculas e minúsculas. Para uma pesquisa que
ignora este aspeto, acrescentar
/ino final da forma ortográfica:- ao pesquisar
gato, obtêm-se ocorrências de gato - ao pesquisar
gato/i, obtêm-se ocorrências de gato, Gato, GATO, etc.
- ao pesquisar
- Inclusão de formas maiores nos resultados
- A pesquisa apenas dá como resultado formas exatamente iguais à
pesquisada. Por exemplo, a pesquisa de
gatonão dará resultados em que gato é parte de uma palavra, pelo que não são apresentados contextos de regato ou obrigatoriamente.Para permitir que a pesquisa inclua casos em que a expressão é uma parte de palavra, é necessário acrescentar
/xapós a forma ortográfica pesquisada (que pode ser combinada com a opção/imencionada acima). Por exemplo:gatoapenas dá contextos da palavra gatogato/xdá contextos de qualquer expressão que contenha a sequência gato, como obrigatoriamentegato/xidá os mesmos resultados do que a pesquisa anterior, não distinguindo maiúsculas e minúsculas
- Contrações
- No Corpus CINTIL, as contrações (por exemplo, daquela,
aos, nas) são desdobradas e codificadas como duas
unidades, em que a primeira é imediatamente seguida de um símbolo de
traço inferior "_" (underscore) (por exemplo,
de_ aquela,a_ os,em_ as).
Pesquisa de padrões regulares
É possível fazer pesquisas no corpus através da utilização de expressões regulares, desde que colocadas entre aspas. O concordanciador CINTIL segue os símbolos usuais estabelecidos para este tipo de pesquisa:
- Alternância
- Pesquisas alternativas são marcadas com uma barra vertical:
|"gato|peixe"dá como resultado todas as ocorrências de gato e todas as ocorrências de peixe
- Conjuntos de caracteres
- Um conjunto de caracteres entre parênteses retos dá como resultado
ocorrências de qualquer um desses caracteres:
"gat[ao]"dá como resultado ocorrências de gata e de gato"[pg]at[ao]"dá como resultado ocorrências de gata, gato, pata e pato
Um conjunto pode ser negado inserindo o símbolo
^(acento circunflexo) imediatamente a seguir ao primeiro parêntese."[^abcd][efg]"dá como resultado ocorrências de dois caracteres, em que o primeiro não é a, b, c ou d e em que o segundo é e, f ou g
- Ponto
- O
"."(ponto final) equivale a qualquer ocorrência de um só carácter (letra,dígito ou símbolo):"gat.s"irá dar como resultado ocorrências de gatas, gatbs, gatcs, gat1s, etc.
- Opcionalidade
- O
"?"(ponto de interrogação) permite assinalar a opcionalidade de qualquer carácter ou expressão que o precede:"gatos?"dá como resultado gato e gatos.
- Iteração
- Há três formas diferentes de expressar a iteração. O operador
*(asterisco) faz com que o carácter ou expressão que o precede seja realizado zero ou mais vezes:"gat.*"dá como resultado qualquer palavra que começa por gat, incluindo a própria forma gat".*gato.*"dá como resultado qualquer palavra que contém a sequência gato (esta pesquisa é equivalente agato/x)
O operador
+(mais) é semelhante, mas requer que haja pelo menos uma ocorrência do carácter ou expressão que o precede:"gat.+"dá como resultado qualquer palavra que começa por gat mas excluindo gat
Finalmente,
{l,u}permite que o número de iterações esteja limitado por um valor mínimo (l) e um valor máximo (u). No entanto, qualquer um dos valores, mínimo ou máximo, pode ser omitido. Nestes casos,{l,}equivale a "pelo menoslvezes",{,u}equivale a "máximo deuvezes" e{n}equivale a "exatamentenvezes":"gat.{2,4}"dá como resultado palavras que começam por gat e que têm entre 2 e 4 caracteres adicionais"[^aer]{5,}"dá como resultado palavras sem a, e ou r, que têm 5 ou mais caracteres.
- Agrupamento
- Os parênteses são usados para agrupar expressões. Os operadores
descritos acima podem assim aplicar-se ao conjunto da expressão entre
parênteses como se fosse um único carácter:
"gat(inh)?o"dá como resultado gato e gatinho (i.e. a sequência inh a seguir ao t é opcional)"ga(to)*"equivale a ga, gato, gatoto, gatototo, etc. (i.e. to pode ocorrer zero ou mais vezes)
Qualquer uma destas expressões pode também ser modificada por /i
e /x, descritos acima. Por exemplo:
"ga.*"/iequivale a palavras que começam por ga, Ga, gA or GA"(ra){2}"/xequivale a palavras que contêm duas ocorrências consecutivas de ra (como rara, mostraram, etc.)
Pesquisar informação linguística
Cada forma está associada a informação linguística, expressos através de
etiquetas de anotação. Cada etiqueta consiste num campo (field) e seu valor
(value) ([field=value]). Por exemplo, [gender=m],
[time=pi], etc.
Cada campo (field) é instanciado por uma palavra-chave (keyword).
Os valores podem ser pesquisados com qualquer um dos métodos acima indicados:
[field=pattern]é o formato para esse tipo de pesquisas.
Os pares field-pattern podem ser combinados entre si através do uso de
operadores lógicos: & ("e" comercial) para conjunção e
| (barra vertical) para disjunção:
[field=pattern & field=pattern][field=pattern | field=pattern]
Além disso, o símbolo de negação ! (ponto de exclamação) permite
pesquisar formas cujo valor do campo não está de acordo com o padrão
estipulado:
[!field=pattern]é um dos formatos possíveis para expressar essa negação[field!=pattern]é equivalente à pesquisa imediatamente anterior.
Forma ortográfica (novamente)
A própria forma ortográfica pode ser pesquisada através da keyword
orth:
[orth=gato]procura formas com a forma ortográfica gato. Os resultados são idênticos aos da pesquisa simples porgato. A opção por este tipo de pesquisa pode ser útil quando se combinaorthcom outros campos (ver alguns exemplos mais abaixo)[orth="gat.*" & orth!=gato]devolve formas que começam por gat, mas que não são gato
Categorias morfossintáticas
A pesquisa de uma palavra com determinada categoria morfossintática é feita
através da keyword pos (part-of-speech):
[pos=cn]encontra formas com a etiqueta POS cn: nome comum (common noun)[pos=cn & orth="ga.*"]devolve formas que são nomes comuns e que começam por ga[pos="d.*"]acha formas que têm qualquer etiqueta POS desde que começada por d[pos!=pnt]encontra formas que não são pontuação (etiqueta pnt)
Poderá consultar a lista de etiquetas morfossintáticas (POS) na aba "Etiquetas" no topo deste painel.
Flexão nominal
As keywords género e número têm, respectivamente,
os valores f (feminino) ou m (masculino), e os
valores s (singular) ou p (plural). Estes valores
permitem pesquisar ocorrências com valores de flexão específicos:
[gender=f]pesquisa todos as formas com flexão do género feminino[number=s & orth=".*s"]pesquisa todos as formas com flexão de número singular e que acabam com a letra s[gender!=m]pesquisa todos as formas que não têm flexão de género masculino. O resultado desta pesquisa abrange palavras que não têm sequer flexão de género, como as preposições, a pontuação, os símbolos, etc.
Alguns tokens possuem anotação de grau, acessível através da keyword
degree:
[degree=dim]pesquisa todas as formas com o grau diminutivo
Flexão verbal
Para pesquisar formas de acordo com os seus traços de flexão verbal, devem
usar-se as keywords person (pessoa), time (tempo)
e number (número):
[person="1"]pesquisa formas na primeira pessoa[time="ppi"]pesquisa formas no Pretérito Perfeito do Indicativo[person="3" & number="s" & time="fc"]pesquisa todas as formas de terceira pessoa singular do Futuro do Conjuntivo[person!="1"]pesquisa formas que não têm flexão de primeira pessoa. Os resultados também incluem formas em relação aos quais não se aplica a flexão de pessoa, como no caso das preposições, da pontuação, dos símbolos, etc.
Poderá consultar a lista de etiquetas de flexão verbal na aba "Etiquetas" no topo deste painel.
Infinitivos podem ocorrer flexionados ou não flexionados. Para pesquisar esta
informação deve usar-se a keyword inflection.
Lema
Para pesquisar palavras pelo seu lema, deve usar-se a keyword
base:
[base=rato]pesquisa formas que têm rato como lema, tais como rato, ratos ou ratinho, etc.[pos=cn & base=".*s"]pesquisa nomes comuns cujo lema acaba em s[orth=foi & pos=v & base!=ir]pesquisa ocorrências da forma verbal foi que não pertencem ao lema ir
Entidade nomeada
Para pesquisar formas que sejam parte de uma expressão que nomeia uma
entidade, deve usar-se a keyword iob:
[iob=B-LOC]pesquisa tokens que estejam no início (B-) de uma expressão que nomeia uma entidade com o tipo semântico "localização" (LOC).[iob=I-PER]pesquisa tokens que estejam dentro (I-) de uma expressão que nomeia uma entidade do tipo "pessoa" (PER).
Poderá consultar a lista de etiquetas para entidades nomeadas na aba "Etiquetas" no topo deste painel.
Metadados
É possível usar metadados para restringir a pesquisa a um tipo específico de
texto através do comando meta:
gato meta source=writtennewspesquisa a forma gato apenas nos documentos noticiosos (writtennews) do corpusgato meta source="written.*"pesquisa a forma gato apenas na porção escrita do corpus (writtennews,writtenfictionewrittenother)
Pode consultar a lista dos campos e valores de metadados na aba "Referência rápida" no topo deste painel.
Pesquisa avançada
Através da combinação das diferentes opções de pesquisa descritas acima, é possível construir pesquisas avançadas como as que são de seguida exemplificadas:
situação[pos=adj]pesquisa ocorrências da forma situação seguida de adjetivo[pos=da][pos=cn]pesquisa ocorrências de formas com a categoria morfossintática artigo definido seguidas de um nome comum[pos=da][pos=adj]?[pos=cn]é semelhante à pesquisa anterior, mas permite a ocorrência opcional de um adjetivo (indicado pela etiqueta adj e pelo operador de opcionalidade "?") entre o artigo definido e o nome comum[pos="cn|adj"]{3,}dá como resultado sequências que tenham pelo menos 3 adjetivos e nomes comuns consecutivos (em qualquer uma das ordens possíveis)[pos=da][pos!=cn]{2,3}[pos=adj]dá como resultado sequências com um artigo definido seguido por 2 ou 3 formas que não sejam nomes comuns, seguidas por um adjetivo- ... etc.
Alinhar os resultados
É possível dividir o resultado de uma pesquisa em duas colunas para tornar os
dados mais legíveis, usando o símbolo ^ (acento circunflexo):
[pos=da][pos!=cn]{2}^[pos=adj]pesquisa sequências com artigo definido seguido de duas formas que não sejam nomes comuns, seguidas de adjetivo. O artigo definido e as duas formas seguintes serão apresentados numa coluna, enquanto o adjetivo final será mostrado noutra coluna.
Resumo da sintaxe de pesquisa
| Pesquisa simples | |
|---|---|
| uma palavra devolve as suas ocorrências | |
| Modificadores de pesquisa | |
/i |
pesquisa insensível às minúsculas/maiúsculas |
/x |
pesquisa de subsequências |
| Expressões para caracteres | |
. |
qualquer carácter único |
[ ] |
um dos caracteres de um conjunto |
[^ ] |
nenhum dos caracteres de um conjunto |
| Operadores de repetição | |
|---|---|
? |
opcional |
* |
zero ou mais vezes |
+ |
uma ou mais vezes |
{n} |
exatamente n vezes |
{n,} |
n ou mais vezes |
{,n} |
até n vezes |
{m,n} |
de m a n vezes |
| Expressões combinadas | |
|---|---|
e1e2 |
e1 seguido de
e2 |
| |
alternância |
( ) |
junção |
| Pesquisa pela anotação | |
[keyword=expressão]
|
|
[keyword!=expressão] |
|
[key1=exp1 & key2=exp2]
|
|
[key1=exp1 | key2=exp2]
|
|
As expressões regulares devem estar entre aspas.
As contrações são codificadas como duas formas,
sendo a primeira concatenada com um traço inferior
(underscore).
Resumo das etiquetas
| Campo | Palavra-chave | Valores |
|---|---|---|
| Forma ortográfica | orth |
qualquer |
| Etiqueta morfossintática | pos |
quadro completo |
| Traços de flexão | gender |
f, m, g |
number |
s, p, n |
|
degree |
dim, sup, comp |
|
person |
1, 2, 3 |
|
time |
quadro completo | |
inflection |
ifl, nifl
| |
| Lema | base |
qualquer |
| Entidade nomeada | iob |
quadro completo |
| Metadados | source |
writtennewswrittenfictionwrittenotherspoken |
