
Resultado da pesquisa
O concordanciador CINTIL online permite extrair do corpus contextos em que ocorrem as expressões pesquisadas.
A expressão pesquisada é inserida numa caixa de texto e os contextos são apresentados abaixo dessa caixa.
Quando a caixa "Mostrar traços" é seleccionada, o concordanciador mostra também a anotação linguística.
Para cada instância, esta anotação é mostrada entre parêntess retos, com
':' a separar cada campo de informação. Por exemplo, a anotação para o nome
comum carros
será mostrada assim:
Cabe notar que esta anotação é mostrada num formato ligeiramente diferente do formato usado no corpus que é distribuído. Para uma descrição deste último, ver aqui.
Por razões técnicas, para cada ocorrência, o contexto devolvido tem um máximo de 10 formas.
Igualmente por razões técnicas, não são apresentados todos os contextos em que ocorre a expressão pesquisada no corpus. A ordem de apresentação dos contextos não corresponde à ordem de ocorrência consecutiva no corpus. Os resultados do concordanciador CINTIL online podem continuar a ser usados como referência em trabalhos de investigação, uma vez que pesquisas idênticas terão sempre resultados idênticos.
Nos casos em que seja necessário ter acesso à totalidade dos contextos, o utilizador poderá adquirir uma cópia do corpus e correr localmente, sobre essa cópia, um concordanciador da sua preferência.
Pesquisa de formas ortográficas
- Maiúsculas e minúsculas
- A pesquisa é sensível às maiúsculas e minúsculas. Para uma pesquisa que
ignora este aspeto, acrescentar
/i
no final da forma ortográfica:- ao pesquisar
gato
, obtêm-se ocorrências de gato - ao pesquisar
gato/i
, obtêm-se ocorrências de gato, Gato, GATO, etc.
- ao pesquisar
- Inclusão de formas maiores nos resultados
- A pesquisa apenas dá como resultado formas exatamente iguais à
pesquisada. Por exemplo, a pesquisa de
gato
não dará resultados em que gato é parte de uma palavra, pelo que não são apresentados contextos de regato ou obrigatoriamente.Para permitir que a pesquisa inclua casos em que a expressão é uma parte de palavra, é necessário acrescentar
/x
após a forma ortográfica pesquisada (que pode ser combinada com a opção/i
mencionada acima). Por exemplo:gato
apenas dá contextos da palavra gatogato/x
dá contextos de qualquer expressão que contenha a sequência gato, como obrigatoriamentegato/xi
dá os mesmos resultados do que a pesquisa anterior, não distinguindo maiúsculas e minúsculas
- Contrações
- No Corpus CINTIL, as contrações (por exemplo, daquela,
aos, nas) são desdobradas e codificadas como duas
unidades, em que a primeira é imediatamente seguida de um símbolo de
traço inferior "_" (underscore) (por exemplo,
de_ aquela
,a_ os
,em_ as
).
Pesquisa de padrões regulares
É possível fazer pesquisas no corpus através da utilização de expressões regulares, desde que colocadas entre aspas. O concordanciador CINTIL segue os símbolos usuais estabelecidos para este tipo de pesquisa:
- Alternância
- Pesquisas alternativas são marcadas com uma barra vertical:
|
"gato|peixe"
dá como resultado todas as ocorrências de gato e todas as ocorrências de peixe
- Conjuntos de caracteres
- Um conjunto de caracteres entre parênteses retos dá como resultado
ocorrências de qualquer um desses caracteres:
"gat[ao]"
dá como resultado ocorrências de gata e de gato"[pg]at[ao]"
dá como resultado ocorrências de gata, gato, pata e pato
Um conjunto pode ser negado inserindo o símbolo
^
(acento circunflexo) imediatamente a seguir ao primeiro parêntese."[^abcd][efg]"
dá como resultado ocorrências de dois caracteres, em que o primeiro não é a, b, c ou d e em que o segundo é e, f ou g
- Ponto
- O
"."
(ponto final) equivale a qualquer ocorrência de um só carácter (letra,dígito ou símbolo):"gat.s"
irá dar como resultado ocorrências de gatas, gatbs, gatcs, gat1s, etc.
- Opcionalidade
- O
"?"
(ponto de interrogação) permite assinalar a opcionalidade de qualquer carácter ou expressão que o precede:"gatos?"
dá como resultado gato e gatos.
- Iteração
- Há três formas diferentes de expressar a iteração. O operador
*
(asterisco) faz com que o carácter ou expressão que o precede seja realizado zero ou mais vezes:"gat.*"
dá como resultado qualquer palavra que começa por gat, incluindo a própria forma gat".*gato.*"
dá como resultado qualquer palavra que contém a sequência gato (esta pesquisa é equivalente agato/x
)
O operador
+
(mais) é semelhante, mas requer que haja pelo menos uma ocorrência do carácter ou expressão que o precede:"gat.+"
dá como resultado qualquer palavra que começa por gat mas excluindo gat
Finalmente,
{l,u}
permite que o número de iterações esteja limitado por um valor mínimo (l
) e um valor máximo (u
). No entanto, qualquer um dos valores, mínimo ou máximo, pode ser omitido. Nestes casos,{l,}
equivale a "pelo menosl
vezes",{,u}
equivale a "máximo deu
vezes" e{n}
equivale a "exatamenten
vezes":"gat.{2,4}"
dá como resultado palavras que começam por gat e que têm entre 2 e 4 caracteres adicionais"[^aer]{5,}"
dá como resultado palavras sem a, e ou r, que têm 5 ou mais caracteres.
- Agrupamento
- Os parênteses são usados para agrupar expressões. Os operadores
descritos acima podem assim aplicar-se ao conjunto da expressão entre
parênteses como se fosse um único carácter:
"gat(inh)?o"
dá como resultado gato e gatinho (i.e. a sequência inh a seguir ao t é opcional)"ga(to)*"
equivale a ga, gato, gatoto, gatototo, etc. (i.e. to pode ocorrer zero ou mais vezes)
Qualquer uma destas expressões pode também ser modificada por /i
e /x
, descritos acima. Por exemplo:
"ga.*"/i
equivale a palavras que começam por ga, Ga, gA or GA"(ra){2}"/x
equivale a palavras que contêm duas ocorrências consecutivas de ra (como rara, mostraram, etc.)
Pesquisar informação linguística
Cada forma está associada a informação linguística, expressos através de
etiquetas de anotação. Cada etiqueta consiste num campo (field) e seu valor
(value) ([field=value]
). Por exemplo, [gender=m]
,
[time=pi]
, etc.
Cada campo (field) é instanciado por uma palavra-chave (keyword).
Os valores podem ser pesquisados com qualquer um dos métodos acima indicados:
[field=pattern]
é o formato para esse tipo de pesquisas.
Os pares field-pattern podem ser combinados entre si através do uso de
operadores lógicos: &
("e" comercial) para conjunção e
|
(barra vertical) para disjunção:
[field=pattern & field=pattern]
[field=pattern | field=pattern]
Além disso, o símbolo de negação !
(ponto de exclamação) permite
pesquisar formas cujo valor do campo não está de acordo com o padrão
estipulado:
[!field=pattern]
é um dos formatos possíveis para expressar essa negação[field!=pattern]
é equivalente à pesquisa imediatamente anterior.
Forma ortográfica (novamente)
A própria forma ortográfica pode ser pesquisada através da keyword
orth
:
[orth=gato]
procura formas com a forma ortográfica gato. Os resultados são idênticos aos da pesquisa simples porgato
. A opção por este tipo de pesquisa pode ser útil quando se combinaorth
com outros campos (ver alguns exemplos mais abaixo)[orth="gat.*" & orth!=gato]
devolve formas que começam por gat, mas que não são gato
Categorias morfossintáticas
A pesquisa de uma palavra com determinada categoria morfossintática é feita
através da keyword pos
(part-of-speech):
[pos=cn]
encontra formas com a etiqueta POS cn: nome comum (common noun)[pos=cn & orth="ga.*"]
devolve formas que são nomes comuns e que começam por ga[pos="d.*"]
acha formas que têm qualquer etiqueta POS desde que começada por d[pos!=pnt]
encontra formas que não são pontuação (etiqueta pnt)
Poderá consultar a lista de etiquetas morfossintáticas (POS) na aba "Etiquetas" no topo deste painel.
Flexão nominal
As keywords género
e número
têm, respectivamente,
os valores f
(feminino) ou m
(masculino), e os
valores s
(singular) ou p
(plural). Estes valores
permitem pesquisar ocorrências com valores de flexão específicos:
[gender=f]
pesquisa todos as formas com flexão do género feminino[number=s & orth=".*s"]
pesquisa todos as formas com flexão de número singular e que acabam com a letra s[gender!=m]
pesquisa todos as formas que não têm flexão de género masculino. O resultado desta pesquisa abrange palavras que não têm sequer flexão de género, como as preposições, a pontuação, os símbolos, etc.
Alguns tokens possuem anotação de grau, acessível através da keyword
degree
:
[degree=dim]
pesquisa todas as formas com o grau diminutivo
Flexão verbal
Para pesquisar formas de acordo com os seus traços de flexão verbal, devem
usar-se as keywords person
(pessoa), time
(tempo)
e number
(número):
[person="1"]
pesquisa formas na primeira pessoa[time="ppi"]
pesquisa formas no Pretérito Perfeito do Indicativo[person="3" & number="s" & time="fc"]
pesquisa todas as formas de terceira pessoa singular do Futuro do Conjuntivo[person!="1"]
pesquisa formas que não têm flexão de primeira pessoa. Os resultados também incluem formas em relação aos quais não se aplica a flexão de pessoa, como no caso das preposições, da pontuação, dos símbolos, etc.
Poderá consultar a lista de etiquetas de flexão verbal na aba "Etiquetas" no topo deste painel.
Infinitivos podem ocorrer flexionados ou não flexionados. Para pesquisar esta
informação deve usar-se a keyword inflection
.
Lema
Para pesquisar palavras pelo seu lema, deve usar-se a keyword
base
:
[base=rato]
pesquisa formas que têm rato como lema, tais como rato, ratos ou ratinho, etc.[pos=cn & base=".*s"]
pesquisa nomes comuns cujo lema acaba em s[orth=foi & pos=v & base!=ir]
pesquisa ocorrências da forma verbal foi que não pertencem ao lema ir
Entidade nomeada
Para pesquisar formas que sejam parte de uma expressão que nomeia uma
entidade, deve usar-se a keyword iob
:
[iob=B-LOC]
pesquisa tokens que estejam no início (B-) de uma expressão que nomeia uma entidade com o tipo semântico "localização" (LOC).[iob=I-PER]
pesquisa tokens que estejam dentro (I-) de uma expressão que nomeia uma entidade do tipo "pessoa" (PER).
Poderá consultar a lista de etiquetas para entidades nomeadas na aba "Etiquetas" no topo deste painel.
Metadados
É possível usar metadados para restringir a pesquisa a um tipo específico de
texto através do comando meta
:
gato meta source=writtennews
pesquisa a forma gato apenas nos documentos noticiosos (writtennews
) do corpusgato meta source="written.*"
pesquisa a forma gato apenas na porção escrita do corpus (writtennews
,writtenfiction
ewrittenother
)
Pode consultar a lista dos campos e valores de metadados na aba "Referência rápida" no topo deste painel.
Pesquisa avançada
Através da combinação das diferentes opções de pesquisa descritas acima, é possível construir pesquisas avançadas como as que são de seguida exemplificadas:
situação[pos=adj]
pesquisa ocorrências da forma situação seguida de adjetivo[pos=da][pos=cn]
pesquisa ocorrências de formas com a categoria morfossintática artigo definido seguidas de um nome comum[pos=da][pos=adj]?[pos=cn]
é semelhante à pesquisa anterior, mas permite a ocorrência opcional de um adjetivo (indicado pela etiqueta adj e pelo operador de opcionalidade "?") entre o artigo definido e o nome comum[pos="cn|adj"]{3,}
dá como resultado sequências que tenham pelo menos 3 adjetivos e nomes comuns consecutivos (em qualquer uma das ordens possíveis)[pos=da][pos!=cn]{2,3}[pos=adj]
dá como resultado sequências com um artigo definido seguido por 2 ou 3 formas que não sejam nomes comuns, seguidas por um adjetivo- ... etc.
Alinhar os resultados
É possível dividir o resultado de uma pesquisa em duas colunas para tornar os
dados mais legíveis, usando o símbolo ^
(acento circunflexo):
[pos=da][pos!=cn]{2}^[pos=adj]
pesquisa sequências com artigo definido seguido de duas formas que não sejam nomes comuns, seguidas de adjetivo. O artigo definido e as duas formas seguintes serão apresentados numa coluna, enquanto o adjetivo final será mostrado noutra coluna.
Resumo da sintaxe de pesquisa
Pesquisa simples | |
---|---|
uma palavra devolve as suas ocorrências | |
Modificadores de pesquisa | |
/i |
pesquisa insensível às minúsculas/maiúsculas |
/x |
pesquisa de subsequências |
Expressões para caracteres | |
. |
qualquer carácter único |
[ ] |
um dos caracteres de um conjunto |
[^ ] |
nenhum dos caracteres de um conjunto |
Operadores de repetição | |
---|---|
? |
opcional |
* |
zero ou mais vezes |
+ |
uma ou mais vezes |
{n} |
exatamente n vezes |
{n,} |
n ou mais vezes |
{,n} |
até n vezes |
{m,n} |
de m a n vezes |
Expressões combinadas | |
---|---|
e1e2 |
e1 seguido de
e2 |
| |
alternância |
( ) |
junção |
Pesquisa pela anotação | |
[keyword=expressão]
|
|
[keyword!=expressão] |
|
[key1=exp1 & key2=exp2]
|
|
[key1=exp1 | key2=exp2]
|
As expressões regulares devem estar entre aspas.
As contrações são codificadas como duas formas,
sendo a primeira concatenada com um traço inferior
(underscore).
Resumo das etiquetas
Campo | Palavra-chave | Valores |
---|---|---|
Forma ortográfica | orth |
qualquer |
Etiqueta morfossintática | pos |
quadro completo |
Traços de flexão | gender |
f , m , g |
number |
s , p , n |
|
degree |
dim , sup , comp |
|
person |
1 , 2 , 3 |
|
time |
quadro completo | |
inflection |
ifl , nifl
| |
Lema | base |
qualquer |
Entidade nomeada | iob |
quadro completo |
Metadados | source |
writtennews writtenfiction writtenother spoken |