-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Discussão e dúvidas corpus DANTE #11
Comments
Pessoal, boa noite! Fiquei em dúvida sobre como anotar a expressão "de acordo com" e o tweet " que linda era esa mina chabonnn" está em espanhol, né? Eu ia marcar "esa" como erro de digitação mas acho que esta em espanhol. |
Pessoal, terminei a minha anotação do pacote 101-150 e encontrei alguns erros de pré-processamento e algumas dúvidas, seguem: Possíveis erros de pré-processamento: Sentença 13 - @ppaulovagner 11h22 = Ações USIMINAS ... Usim 3 + 1,76 % e Usim 5 + 3,61 % ... (Nome da ação tokenizado indevidamente) Sentença 18 - @andresmoraes isso sem contar os 30 % de a #PETR4 ... o . O (Tokenização indevida do emoji ao final da sentença) Sentença 23 - PETR4 com vol . financeiro cerca de 9 vezes a VALE5 . Explode ? (O ponto faz ou não parte da abreviação? Se fizer, a tokenização é indevida) Sentença 41 - & lt , Alexander Cruz 3 * - * ( Tokenização indevida do emoji ao final da sentença, também não faço a menor ideia do que seja "& It", não encontrei nada na internet) Sentença 47 - Futuros de NY caindo ( 0,55 ) pts , Japão caindo 0,41 % , China caindo 0,48 % . #PETR4 _ VAI _ A _ 17 REAL ! ! (Tokenização indevida da hashtag ao final da sentença) |
Para registro. Todos são casos sim de tokenização indevida.
No caso de "vol.", agiremos como em "p/", "q/" etc.
N
Em ter., 27 de abr. de 2021 às 23:56, gabrielceregatto <
***@***.***> escreveu:
… Pessoal, terminei a minha anotação do pacote 101-150 e encontrei alguns
erros de pré-processamento e algumas dúvidas, seguem:
Possíveis erros de pré-processamento:
Sentença 13 - @ppaulovagner 11h22 = Ações USIMINAS ... *Usim 3* + 1,76 %
e *Usim 5* + 3,61 % ... (Nome da ação tokenizado indevidamente)
Sentença 18 - @andresmoraes <https://github.com/andresmoraes> isso sem
contar os 30 % de a #PETR4 ... *o . O* (Tokenização indevida do emoji ao
final da sentença)
Sentença 23 - PETR4 com *vol .* financeiro cerca de 9 vezes a VALE5 .
Explode ? (O ponto faz ou não parte da abreviação? Se fizer, a tokenização
é indevida)
Sentença 41 - *& lt* , Alexander Cruz 3 *** * - * *** ( Tokenização
indevida do emoji ao final da sentença, também não faço a menor ideia do
que seja "& It", não encontrei nada na internet)
Sentença 47 - Futuros de NY caindo ( 0,55 ) pts , Japão caindo 0,41 % ,
China caindo 0,48 % . *#PETR4 _ VAI _ A _ 17 REAL ! !* (Tokenização
indevida da hashtag ao final da sentença)
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOIIUUXDJAAZD7B4DVLTK52OHANCNFSM42WVHLSQ>
.
|
Valeu, Gabriel! Já passei esses casos para o Emanuel! |
Em ocorrência como "De acordo com o professor, eu entendi o conceito", a expressão "de acorco com" equivale a "segundo" (ADP) e a anotação seria ADP, NOUN, ADP.
Sim, está em espanhol! É um regionalismo da Argentina. |
Essa #KROT3 é um mistério . Tenho a olhada de perto desde os R$ 35 . Papel bem alugado mas não cede nunca ! @ferrisss esse "tenho a olhada", o "a" é um PRON, certo? Então esse olhada marca como erro de digitação? |
Laura, o "a" é mesmo PRON e o eu acho que "olhada" é, na verdade, "olhado" (ficando "tenho a olhado"). Nesse caso, anote "olhada" como erro de digitação, sim. |
Pessoal, não sei se é só o meu pacote que está assim, mas quase todos os tweets que tem o hífen ou o sinal de menos, ele vira um "underline". Mas o curioso é que eu vejo no tweet como hífen/sinal de menos, mas quando eu clico para abrir e ver as anotações, ele muda pra underline. Quando a arvore está fechada, é certinho o sinal mas quando eu abro, ele desce. Não sei se a Carol e o Gabriel observaram isso também. Nesse caso, é um erro de pré processamento? Segue alguns exemplos: "25/ 04 O Ibovespa fechou em queda de _ 0,81 % , a os 51.399 pontos . Destaques : AEDU3 _ 3,72 % , MFRG3 _ 2,88 % e HGTX _ 2,74 % ." ( - 3,72 fica-> _3,72 ; - 2,88 fica -> _ 2,88...etc) Conheça a queridinha de o Ibovespa , papel é recomendado 15 vezes . Chama _ se VALE5 . Uma empresa com fundamentos , produtiva e rentável . (Chama-se fica -> Chama_se) |
Eu não havia percebido, mas no meu também está mudando para underline depois que abro a árvore da sentença! Me parece ser um problema da plataforma, mas não tenho certeza. |
Boa noite! Me deparei com sentenças como a seguinte: BM & amp , FBovespa ( #BVMF3 ) negocia volume 6,7 % menor em fevereiro . http://t.co/0EEfEadv9Y ( Estadão ) Esse nome BM & amp , FBovespa aparece em mais de uma sentença, mas não encontrei em textos escritos na rede. Descobri que se refere à bolsa de valores brasileira. A forma que encontrei na rede é BM&FBovespa ou BM&F Bovespa Registro aqui minha dúvida quanto à anotação das tokens & e amp. Anoto como PROPN? Ou é algum tipo de erro de processamento? |
Gabriel, ao que parece (puro achismo!!), o E comercial (&) ocorre por vezes na web seguido da abreviação "amp" (que deve ser uma abreviação de "ampersand", outro nome de &). Aliás, no DANTE, o símbolo & sempre aparece seguido de "amp,". Como a forma mais frequente na web é BM&FBovespa, creio que, mesmo com a ocorrência do "amp,", a sequência "BM & amp , FBovespa" seja um único token (BM&,FBovespa), anotado com PROPN. Por enquanto, sugiro anotar como erro de pré-processamento para passarmos ao Emanuel. |
O caractere "&" é um caractere de escape em HTML (usado para formatar páginas web). Para que o browser mostre o "&", alguns editores inserem seu código HTML: "&". Então "&" é a codificação html do "&" |
Boa tarde! No segundo pacote, encontrei o seguinte tweet: @sidimarcoelho de segunda ate hoje , elet3 subiu 11,4 % e a elet6 6,6 % ta acompanhando ? ? ? Fiquei contente pa kct , adivinha pq ? ? ? Fiquei em dúvida em relação ao "por que" abreviado no final do tweet. Entendo que, em sentenças interrogativas, o "pq" não abreviado representa a forma separada "por que". Nesse caso, seriam dois tokens distintos contraídos em um único token. Como deveríamos anotar? |
Gabriel, o "pq" no final do tweet é, segundo Sanguinett et al (2020), um "fenômeno transversal" (transverse phenomena), o qual afeta o número de tokens em relação à "língua padrão". No caso, trata-se do "por quê", como em "Sabem por quê (motivo)?". Acho que esse é um caso de se dividir (split up) o token em dois tokens (pq --> por quê) para a correta anotação morfossintática em ADP, PRON. Por enquanto, anote com X para discutirmos na próxima reunião. |
Pessoal, boa noite! Nessa sentença: Inglêiz eu não sei , maiz heim portuguêiz eu çôu fera :P hu3 - podemos ver vários "erros", mas a pessoa muito provavelmente digitou com sarcasmo.. vocês vão considerar erro ou acham melhor marcar normal? fiquei pensando se não prejudica o aprendizado marcar normal essas palavras "erradas" mas também eu sei que não foi um "erro".. o que vocês acham? haha |
Minha primeira reação é marcar como erro, para então em uma segunda passada
marcar corretamente.
Simplesmente anotar como se não houvesse erro se faz prejudicial, do ponto
de vista de treinamento de modelos, por criar uma entrada no lexicon de uma
palavra que muito provavelmente será única. Isso porque erros intencionais
não necessariamente seguem o padrão de erros legítimos, então teríamos a
ocorrência de um token sem repetição, tornando o tweet inútil para o
aprendizado.
Por outro lado, marcar como erro e corrigir pode ser prejudicial aos
corretores ortográficos pois, como disse, erros artificiais quase
certamente não seguem a distribuição dos erros naturais, simplesmente
porque eles vêm carregados de estereótipos sobre como alguns falariam
errado (como ocorreu no exemplo).
Então acho que os passos a serem seguidos seriam:
1. Marcar como erro
2. Em um segundo momento, marcar a PoS, mas adicionar meta-informação
dizendo que é erro, e que é artificial
O que acham?
N
Em qui., 13 de mai. de 2021 às 21:27, llauragazana ***@***.***>
escreveu:
… Pessoal, boa noite!
Nessa sentença: Inglêiz eu não sei , maiz heim portuguêiz eu çôu fera :P
hu3 - podemos ver vários "erros", mas a pessoa muito provavelmente digitou
com sarcasmo.. vocês vão considerar erro ou acham melhor marcar normal?
fiquei pensando se não prejudica o aprendizado marcar normal essas palavras
"erradas" mas também eu sei que não foi um "erro".. o que vocês acham? haha
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOJOQCJQSVMI4TCI6H3TNRU7VANCNFSM42WVHLSQ>
.
|
Concordo! |
Bom dia, pessoal! Tudo bem? As minhas dúvidas são as seguintes:
Em relação ao símbolo +, fiquei em dúvida se marcava como SYM ou com sua função sintática. Por exemplo, na primeira sentença. vejo esse + como adição, então acredito que possa ser anotado como SYM, mas, na segunda, vejo como ADV. Faz sentido? hahah. Ou a anotação será sempre em SYM nesses casos?
Percebi que nesse pacote há uma recorrência de"para a" antes de verbos no infinitivo. No entanto, essa construção parece estanha para mim, o a para estar sobrando. Será que é algum erro de pré-processamento ou seria uma característica de escrita de um usuário e, logo, algum erro de digitação?
|
Oi Carol. Vou tentar responder (com ênfase no tentar :-) ). Basicamente,
melhor discutirmos na quarta, mas deixo aqui algumas opiniões...
1. #VALE5 será q hj vc irá repicar *Valedita* ? ?
- "Valendita" está com um diminutivo mais ligado ao espanhol. Mesmo
assim a anotação continua PROPN e não como *erro de digitação*?
Porque não é um erro. A UD diz que, se conseguirmos identificar qual é a
função/classificação da palavra em outra língua, devemos usar essa
classificação, como se tivesse sido escrita em português.
1. A gente estamos em a *contra _ mão* de o @ ferrisss ! ! Amanhã ,
nossa gestora vai vender JBSS3 ! ! Call de venda , vai cair muito ! !
- Em "contra - mão" fiquei em dúvida entre a anotação "erro de
digitação", já que a grafia adequada da palavra é *contramão*, e "erro
de pré-processamento", já que era pra ser um único token. Nesses casos,
vamos priorizar alguma anotação?
Boa pergunta (leia-se, não sei a resposta). Vamos discutir isso quarta.
1. Aparentemente #LLXL3 se despede de o ibov em a proxima carteira .
Aproveitem para dar *tchau* ! @ferrisss <https://github.com/ferrisss>
@dfittarelli
- "tchau", nesse contexto, ainda seria anotado como INTJ? Fiquei em
dúvida se nesse caso poderia ser anotado com NOUN por ser um argumento
verbal.
Usando o artigo como desambiguador, que é o que temos feito, eu acredito
que seria NUN sim... não parece ser interjeição. Maaaaasss, esse sou eu.
Vamos ver quarta.
1. #petr4 12,57 falta *beeeem* pouco ...
- RT @rachelasdfglee : GOLOOOOOOOOOOOoOOOOO
- Essa talvez seja uma diretriz que eu não lembro, pois, no pacote 2,
há a setença ***@***.***_cruz3 miraaaaadas" com "mirada" marcada como NOUN. Dessa
forma, mesmo que a grafia da palavra mude com o aumento das vogais de uma
sílaba, a anotação ainda será a que leva em conta a função sintática e não
"erro de digitação"?
Não lembro também... Alguma ideia Ariani?
1. @instmillenium de aí fica bem marcado que os governos levam 53 % *+*
o imposto sobre o frete , e a Petr4 vai afundando em dívidas !
- ITUB4 ja negociou *+* de 300M ? Ta certo meu sistema aqui ? @ferrisss
<https://github.com/ferrisss> @dfittarelli @JPedro_Sullivan
Em relação ao símbolo +, fiquei em dúvida se marcava como SYM ou com sua
função sintática. Por exemplo, na primeira sentença. vejo esse + como
adição, então acredito que possa ser anotado como SYM, mas, na segunda,
vejo como ADV. Faz sentido? hahah. Ou a anotação será sempre em SYM nesses
casos?
Olha Carol, você tem que parar de fazer pergunta difícil... faz sentido
sim. Ele é usado como uma abreviação, por assim dizer, de "mais". Tem algo
no nosso manual sobre isso?
1. #goll4 vou tirar de a frente *para a* *não enfartar*
- #VALE5 Opções compre bastante , joga seu dinheiro em opções *para a*
*virar* pó kkkkk
- RT @cafecomtorradas : Mais que incompetência : é preciso vocação
revolucionária *para a* *fazer* o que fizeram com a Petrobras . #PETR4
- com impressionantes ... 500 #PETR4 ... ( é *para a* *despistar* tio
? =P )
- @clubedopairico Ibovespa em as médias . Se bobear de a *para a*
*brincar* de urso se o mov . de a PETR4 for só uma correção . De olho
! o.O
- @DepBolsonaro procurem analistas de mercado *para a* *fazerem*
perguntas incisivas a Foster . Ajudem quem tem FGTS investido em a PETR4 .
Percebi que nesse pacote há uma recorrência de"para a" antes de verbos no
infinitivo. No entanto, essa construção parece estanha para mim, o *a*
para estar sobrando. Será que é algum *erro de pré-processamento* ou
seria uma característica de escrita de um usuário e, logo, algum *erro de
digitação*?
Olhando o corpus original, é erro de tokenização. Nos exemplos que você
deu, em todos os casos, "para a" está originalmente como "pra"
1. pô , *de novo* leilão de a #PETR4 começando em os R$ 33,00 ? ! ! ?
! ?
- Aqui fiquei em dúvida na anotação da expressão fixa "de novo", seria
anotado como ADP, ADJ mesmo
Não é locução adverbial? O manual diz o que nisso?
N
…
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOLVBJY3GKISSUCXQQTTO7BGHANCNFSM42WVHLSQ>
.
|
Pessoal, já começando o pack4.. o que é esse "4Q13 (N)" veio como PROPN PUNCT E_PROC PUNCT.. eu joguei no google mas não entendi muito bem. |
É possível que seja 4o quadrimestre de 2013
N
Em seg., 24 de mai. de 2021 às 19:08, llauragazana ***@***.***>
escreveu:
… Pessoal, já começando o pack4..
RT @ojappadonodo6 : @garimpodeacoes $RSID3 4Q13 ( N ) Geração Op de Caixa
forte , com desalavancagem financeira . Margens se recuperam YoY . http …
o que é esse "4Q13 (N)" veio como PROPN PUNCT E_PROC PUNCT.. eu joguei no
google mas não entendi muito bem.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOKKZU4HK6ZWI43XVYDTPLE7LANCNFSM42WVHLSQ>
.
|
É isso mesmo, Norton!
Em seg., 24 de mai. de 2021 às 19:58, Norton Trevisan Roman <
***@***.***> escreveu:
É possível que seja 4o quadrimestre de 2013
N
Em seg., 24 de mai. de 2021 às 19:08, llauragazana ***@***.***>
escreveu:
> Pessoal, já começando o pack4..
> RT @ojappadonodo6 : @garimpodeacoes $RSID3 4Q13 ( N ) Geração Op de Caixa
> forte , com desalavancagem financeira . Margens se recuperam YoY . http …
>
> o que é esse "4Q13 (N)" veio como PROPN PUNCT E_PROC PUNCT.. eu joguei no
> google mas não entendi muito bem.
>
> —
> You are receiving this because you commented.
> Reply to this email directly, view it on GitHub
> <
#11 (comment)>,
> or unsubscribe
> <
https://github.com/notifications/unsubscribe-auth/AQQ2JOKKZU4HK6ZWI43XVYDTPLE7LANCNFSM42WVHLSQ
>
> .
>
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PGOJCTA3B5NWIOFAG3TPLK3BANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Muito obrigada, professor! |
Bom dia, pessoal! Tudo bem? Reparei que nesse pacote a separação entre preposição e artigo (por exemplo, em a e de a) apareceram com letra maiúscula na preposição em todas as sentenças. Nesse caso, é necessário colocar anotação de erro de pré-processamento?
|
Eu acredito que sim.
N
Em sáb., 29 de mai. de 2021 às 08:27, carolpstl ***@***.***>
escreveu:
… Bom dia, pessoal! Tudo bem?
Reparei que nesse pacote a separação entre preposição e artigo (por
exemplo, *em a* e *de a*) apareceram com letra maiúscula na preposição em
todas as sentenças. Nesse caso, é necessário colocar anotação de erro de
pré-processamento?
- Os 3 motivos para a derrocada *De a* Vale hoje , ações caem mais de
3 % : Além *De a* China , papel é pr ... http://t.co/R0uWXA99UG
#infomoney #vale5
- Bolsa : cerveja mais cara não atrapalha preços *De as* ações *De a*
AMBEV http://t.co/gXHVYGms0Q #impostos #ABEV3 #bolsa
- RT @chrinvestor : Com o provável racionamento de água em SP ,
atualmente investir *Em a* Sabesp representa um risco elevado . #SBSP3
_ 23 % em 2014 .
- Já está disponibilizada *Em o* website de RI a apresentação de
resultados *De o* 4T13 . Confira : http://t.co/psKWHcab95 $LIGT3
- Veja as melhores ações para comprar *Em esta* semana , de acordo com
8 corretoras : Os papéis De a G ... http://t.co/L6OsbF6Os6 #infomoney
#vale5
- Entramos *Em a* compra *Para a* posição de CSNA3 hoje a 9.60 .
Estamos Em o game .
- A LIGHT S.A. fechou o dia de hoje *A o* preço de R$ 20,10 ( + 0,00 %
) com volume de R$ 14,24 mm . $LIGT3
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOP6AXOXFKVYZFC3HI3TQDFSRANCNFSM42WVHLSQ>
.
|
Também acho que se deve colocar E_PPROC nesses casos!
A.
Em sáb., 29 de mai. de 2021 às 08:27, carolpstl ***@***.***>
escreveu:
… Bom dia, pessoal! Tudo bem?
Reparei que nesse pacote a separação entre preposição e artigo (por
exemplo, *em a* e *de a*) apareceram com letra maiúscula na preposição em
todas as sentenças. Nesse caso, é necessário colocar anotação de erro de
pré-processamento?
- Os 3 motivos para a derrocada *De a* Vale hoje , ações caem mais de
3 % : Além *De a* China , papel é pr ... http://t.co/R0uWXA99UG
#infomoney #vale5
- Bolsa : cerveja mais cara não atrapalha preços *De as* ações *De a*
AMBEV http://t.co/gXHVYGms0Q #impostos #ABEV3 #bolsa
- RT @chrinvestor : Com o provável racionamento de água em SP ,
atualmente investir *Em a* Sabesp representa um risco elevado . #SBSP3
_ 23 % em 2014 .
- Já está disponibilizada *Em o* website de RI a apresentação de
resultados *De o* 4T13 . Confira : http://t.co/psKWHcab95 $LIGT3
- Veja as melhores ações para comprar *Em esta* semana , de acordo com
8 corretoras : Os papéis De a G ... http://t.co/L6OsbF6Os6 #infomoney
#vale5
- Entramos *Em a* compra *Para a* posição de CSNA3 hoje a 9.60 .
Estamos Em o game .
- A LIGHT S.A. fechou o dia de hoje *A o* preço de R$ 20,10 ( + 0,00 %
) com volume de R$ 14,24 mm . $LIGT3
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PEQRQL4KHG7LSSLGU3TQDFSRANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
|
Pessoal, estou revisando as sentenças eu vi que aparece algumas vezes "Ago / e" e eu não tinha percebido que era "Ago/Age", ou seja, Assembleia Geral Ordinária e Assembleia Geral Extraordinária. Mas como anota isso? NOUN PUNC NOUN? NOUN PUNCT E_PROC? ou tudo como E_PROC? |
Laura,
Como ficou a tokenização disso no
Pack 4?
A.
Em sáb., 29 de mai. de 2021 às 12:48, llauragazana ***@***.***>
escreveu:
Pessoal, estou revisando as sentenças eu vi que aparece algumas vezes "Ago
/ e" e eu não tinha percebido que era "Ago/Age", ou seja, Assembleia Geral
Ordinária e Assembleia Geral Extraordinária. Mas como anota isso? NOUN PUNC
NOUN? NOUN PUNCT E_PROC? ou tudo como E_PROC?
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PHT6TXG45Y5LFCU4RLTQEEDVANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Veio "Ago" "/" "e" |
Boa noite! Apareceu em uma sentença o "2x", como podemos anotar ? seria o "duas vezes", por exemplo: "Eu fui 2x na faculdade" |
Laura,
Qual é o tweet?
A.
Em ter., 1 de jun. de 2021 às 23:09, llauragazana ***@***.***>
escreveu:
Boa noite!
Apareceu em uma sentença o "2x", como podemos anotar ? seria o "duas
vezes", por exemplo: "Eu fui 2x na faculdade"
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PAQILVFWOTL4XCWZH3TQWHGRANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
@BlackWizardX estimulos em a China e futuros ja em alta . Por isso acredito q a VALE pode ir em busca de o seu valor de valer sempre 2x a PETR4 . vamos ver como a #PETR4 se comporta em o teste de os R$ 14,70 agora ... ( que arrancada doida ... 2x por causa de o IBOPE , que legal ... ) De os bancões , só #BBAS3 cai . Ontem tomaram aluguel de 2x volume negociado em o dia . Será que tem coisa aí ? @ferrisss @dfittarelli |
Oi Laura.
Sim, em todos esses exemplos 2x é "duas vezes"
N
Em ter., 1 de jun. de 2021 às 23:25, llauragazana ***@***.***>
escreveu:
… Laura, Qual é o tweet? A. Em ter., 1 de jun. de 2021 às 23:09,
llauragazana *@*.***> escreveu:
Boa noite! Apareceu em uma sentença o "2x", como podemos anotar ? seria o
"duas vezes", por exemplo: "Eu fui 2x na faculdade" — You are receiving
this because you were mentioned. Reply to this email directly, view it on
GitHub <#11 (comment)
<#11 (comment)>>,
or unsubscribe
https://github.com/notifications/unsubscribe-auth/ATO63PAQILVFWOTL4XCWZH3TQWHGRANCNFSM42WVHLSQ
.
-- Professora Associada Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
@BlackWizardX estimulos em a China e futuros ja em alta . Por isso
acredito q a VALE pode ir em busca de o seu valor de valer sempre 2x a
PETR4 .
vamos ver como a #PETR4 se comporta em o teste de os R$ 14,70 agora ... (
que arrancada doida ... 2x por causa de o IBOPE , que legal ... )
De os bancões , só #BBAS3 cai . Ontem tomaram aluguel de 2x volume
negociado em o dia . Será que tem coisa aí ? @ferrisss
<https://github.com/ferrisss> @dfittarelli
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOLOSNEEP6I74IOKCSLTQWJAFANCNFSM42WVHLSQ>
.
|
Bom dia! Encontrei o seguinte tweet no pacote 6: Felicio Filho , Marrinha , Segue a tabela de a P16 . + Petr4 . [ ] s PC Não consegui recuperar o que seria esse "[ ] s PC" no final da sentença, alguém tem uma luz? |
Gabriel, bom dia!
Pode ser “abraços”, que normalmente se representa como “[ ]’s”. Estaria só
faltando o apóstrofe.
Ariani
Em sex., 11 de jun. de 2021 às 04:58, gabrielceregatto <
***@***.***> escreveu:
Bom dia!
Encontrei o seguinte tweet no pacote 6:
*Felicio Filho , Marrinha , Segue a tabela de a P16 . + Petr4 . [ ] s PC*
Não consegui recuperar o que seriam esse "[ ] s PC" ao final da sentença,
alguém tem uma luz?
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PHDY7GPYQ36S7N4LTLTSG6YPANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Olha o tweet original (no csv):
"Felicio Filho,
Marrinha,
Segue a tabela da P16. + Petr4.
[]s
PC"
É "abraços, Pedro Cabeção" (Nome fictício :-P )
N
Em sex., 11 de jun. de 2021 às 06:55, arianidf ***@***.***>
escreveu:
… Gabriel, bom dia!
Pode ser “abraços”, que normalmente se representa como “[ ]’s”. Estaria só
faltando o apóstrofe.
Ariani
Em sex., 11 de jun. de 2021 às 04:58, gabrielceregatto <
***@***.***> escreveu:
> Bom dia!
>
> Encontrei o seguinte tweet no pacote 6:
>
> *Felicio Filho , Marrinha , Segue a tabela de a P16 . + Petr4 . [ ] s PC*
>
> Não consegui recuperar o que seriam esse "[ ] s PC" ao final da sentença,
> alguém tem uma luz?
>
> —
> You are receiving this because you were mentioned.
> Reply to this email directly, view it on GitHub
> <
#11 (comment)>,
> or unsubscribe
> <
https://github.com/notifications/unsubscribe-auth/ATO63PHDY7GPYQ36S7N4LTLTSG6YPANCNFSM42WVHLSQ
>
> .
>
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JONIMMSAC5M6CUGHVKLTSHMPPANCNFSM42WVHLSQ>
.
|
Ah, entendi! Muito obrigado Ariani e Norton!
|
Pessoal, esse "segunda" do tweet é de segunda-feira ou de 2ª? Se for de segunda-feira, é noun mesmo ou erro (por estar faltando o -feira) ? @ferrisss Alta de a Petr4 segunda ! |
Acredito ser de segunda-feira... não vejo como erro. É comum falar os dias
da semana assim.
N
Em ter., 15 de jun. de 2021 às 15:37, Laura Gazana ***@***.***>
escreveu:
… Pessoal, esse "segunda" do tweet é de segunda-feira ou de 2ª? Se for de
segunda-feira, é noun mesmo ou erro (por estar faltando o -feira) ?
@ferrisss <https://github.com/ferrisss> Alta de a Petr4 segunda !
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOK67SXGVU43BGJYEGLTS6MV5ANCNFSM42WVHLSQ>
.
|
Boa tarde, pessoal! Mesmo caso daquele "pq", agora apareceu o "pf" de "por favor"... estou marcando com X, alguma sugestão diferente? O ideal era separar.. mas acredito que isso será cuidado depois rs Tenho lote grande de PETR4 , me add em o skype pf @brunogmusa @Smarttrade10 @plima79 @ferrisss @dfittarelli @hud |
Oi, Laura!
Em princípio, sim, é X.
Ariani
Em qui., 17 de jun. de 2021 às 13:25, Laura Gazana ***@***.***>
escreveu:
… Boa tarde, pessoal! Mesmo caso daquele "pq", agora apareceu o "pf" de "por
favor"... estou marcando com X, alguma sugestão diferente? O ideal era
separar.. mas acredito que isso será cuidado depois rs
Tenho lote grande de PETR4 , me add em o skype pf @brunogmusa
@Smarttrade10 @plima79 @ferrisss <https://github.com/ferrisss>
@dfittarelli @hud <https://github.com/hud>
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PAZ6S52XAQW4SW47K3TTIOYBANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Pessoal, boa tarde! Encontrei o seguinte tweet: "@clubedopairico Pé frio ! ? Não , isso é sinal de guerra a o mercado ou em o minimo burrice pq foi só o abrir a boca sobre petr4 q a bolsa caiu !" Fiquei confuso em relação ao "o" logo após o "só". Parece ser um determinante sozinho, sem estar determinando um nome. Mantenho a anotação de DET, marco como erro de digitação ou é algum tipo de erro de pré-processamento que não fui capaz de enxergar? |
Gabriel,
Parece ser um equívoco de digitação mesmo.
Ariani
Em sex., 18 de jun. de 2021 às 13:01, gabrielceregatto <
***@***.***> escreveu:
… Pessoal, boa tarde!
Encontrei o seguinte tweet: ***@***.*** Pé frio ! ? Não , isso é
sinal de guerra a o mercado ou em o minimo burrice pq foi *só o* abrir a
boca sobre petr4 q a bolsa caiu !"
Fiquei confuso em relação ao "o" logo após o "só". Parece ser um
determinante sozinho, sem estar determinando um nome. Mantenho a anotação
de DET, marco como erro de digitação ou é algum tipo de erro de
pré-processamento que não fui capaz de enxergar?
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PCE7FXL6ELITJI6IKLTTNUXPANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Concordo
Em ter., 22 de jun. de 2021 às 14:37, arianidf ***@***.***>
escreveu:
… Gabriel,
Parece ser um equívoco de digitação mesmo.
Ariani
Em sex., 18 de jun. de 2021 às 13:01, gabrielceregatto <
***@***.***> escreveu:
> Pessoal, boa tarde!
>
> Encontrei o seguinte tweet: ***@***.*** Pé frio ! ? Não , isso é
> sinal de guerra a o mercado ou em o minimo burrice pq foi *só o* abrir a
> boca sobre petr4 q a bolsa caiu !"
>
> Fiquei confuso em relação ao "o" logo após o "só". Parece ser um
> determinante sozinho, sem estar determinando um nome. Mantenho a anotação
> de DET, marco como erro de digitação ou é algum tipo de erro de
> pré-processamento que não fui capaz de enxergar?
>
> —
> You are receiving this because you were mentioned.
> Reply to this email directly, view it on GitHub
> <
#11 (comment)>,
> or unsubscribe
> <
https://github.com/notifications/unsubscribe-auth/ATO63PCE7FXL6ELITJI6IKLTTNUXPANCNFSM42WVHLSQ
>
> .
>
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOOCRK4V7DRRFAY2SCDTUDC5TANCNFSM42WVHLSQ>
.
|
Gente, vocês sabem o que é esse W ? dante_01_455747937323462656l possivel W em a GGBR4 em o diario |
Pode ser uma tentativa de desenhar o padrão de reversão ombro-cabeça-ombro.
No contexto faz sentido
N
Em ter, 22 de jun de 2021 18:29, Laura Gazana ***@***.***>
escreveu:
… Gente, vocês sabem o que é esse W ?
dante_01_455747937323462656l possivel W em a GGBR4 em o diario
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOIIQ3GDSXAI4CCSXJTTUD6FHANCNFSM42WVHLSQ>
.
|
Pessoal, esse "fogo" do tweet é daquela expressão "é fogo", no sentido de difícil, complicado, etc. ? Se sim, anota como NOUN mesmo ou ADJ, ou INTJ ? RT @joanarauhl : hoje nem conseguimos tirar selfie com os lutadores e tivemos de improvisar , fogo |
Outra coisa, efeito dessas últimas reuniões com a Magali hahasd eu estou em dúvida em como fica esse "que se" Aposto uma mariola que se a #PETR4 bater os 9 reais vão falar que o rali de os 12 a os 16 foi pra pegar sardinha deslumbrada . |
Laura,
Pensando no contexto sintático e que é um uso metafórico, podemos anotar
como NOUN mesmo.
Ariani
<https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail>
Livre
de vírus. www.avast.com
<https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail>.
<#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>
Em sex., 25 de jun. de 2021 às 15:29, Laura Gazana ***@***.***>
escreveu:
… Pessoal, esse "fogo" do tweet é daquela expressão "é fogo", no sentido de
difícil, complicado, etc. ? Se sim, anota como NOUN mesmo ou ADJ, ou INTJ ?
RT @joanarauhl : hoje nem conseguimos tirar selfie com os lutadores e
tivemos de improvisar , fogo
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PCJC6BIJCE7CBDNEYLTUTDHNANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Laura,
Para mim, continua sendo SCONJ SCONJ.
Ariani
<https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail>
Livre
de vírus. www.avast.com
<https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail>.
<#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>
Em sex., 25 de jun. de 2021 às 16:30, Laura Gazana ***@***.***>
escreveu:
… Outra coisa, efeito dessas últimas reuniões com a Magali hahasd eu estou
em dúvida em como fica esse "que se"
Aposto uma mariola *que* *se* a #PETR4 bater os 9 reais vão falar que o
rali de os 12 a os 16 foi pra pegar sardinha deslumbrada .
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PGEOQ5DCRTXH2GEML3TUTKO3ANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Boa tarde! Encontrei duas dúvidas no pacote 9, seguem: #goll4 FDP saí de o sw e ela me sacaneou hj ... faz parte Alguém conseguiu recuperar o que seria o SW? Encontrei na rede o termo "swing trade", mas não sei nem se a sigla nem o contexto fazem tanto sentido para este termo. A segunda: RT @chrinvestor : Nova composição de o índice #Ibovespa passa a valer a partir de 2a . feira . Itaú ( #ITAU4 ) e Bradesco ( #BBDC4 ) com as maiores … Entendo que o ponto separado de 2a é um erro de pré-processamento, a minha dúvida fica na anotação de feira. Estamos anotando segunda feira como erro de digitação, visto que a grafia normal é segunda-feira. Como faremos para a anotação de essas formas (2a feira, 3a feira, etc)? |
Oi Gabriel.
Faz sentido ser o swing sim... não consigo lembrar de nada que bata com sw.
N
Em qui, 1 de jul de 2021 18:26, gabrielceregatto ***@***.***>
escreveu:
… Boa tarde!
Encontrei duas dúvidas no pacote 9, seguem:
*#goll4 FDP saí de o sw e ela me sacaneou hj ... faz parte*
Alguém conseguiu recuperar o que seria o SW? Encontrei na rede o termo
"swing trade", mas não sei nem se a sigla nem o contexto fazem tanto
sentido para este termo.
A segunda:
*RT @chrinvestor : Nova composição de o índice #Ibovespa passa a valer a
partir de 2a . feira . Itaú ( #ITAU4 ) e Bradesco ( #BBDC4 ) com as maiores
…*
Entendo que o ponto separado de 2a é um erro de pré-processamento, a minha
dúvida fica na anotação de feira. Estamos anotando segunda feira como erro
de digitação, visto que a grafia normal é segunda-feira. Como faremos para
a anotação de essas formas (2a, 3a, 4a, etc)?
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQQ2JOOCWKDZ5BPX46Q5VWTTVTMRHANCNFSM42WVHLSQ>
.
|
Boa noite, pessoal! RT @ale_chumer : PETR4 caindo 3 % , foi bem a ( dês ) Graça Foster hoje ? Estou em dúvida sobre como anotar esse "dês" kk uma piada com "desgraça" |
Gabriel, |
Então ficaria: Não sei se entendi certo hahaha |
Laura,
Ficam:
"2a feira": ADJ NOUN;
"segunda": NOUN;
"segunda feira": E_PROC E_PROC (desde que esteja assim separada do corpus
original);
"segunda-feira": NOUN
Ariani
Em sex., 2 de jul. de 2021 às 21:20, Laura Gazana ***@***.***>
escreveu:
… Boa tarde!
Encontrei duas dúvidas no pacote 9, seguem:
*#goll4 FDP saí de o sw e ela me sacaneou hj ... faz parte*
Alguém conseguiu recuperar o que seria o SW? Encontrei na rede o termo
"swing trade", mas não sei nem se a sigla nem o contexto fazem tanto
sentido para este termo.
A segunda:
*RT @chrinvestor : Nova composição de o índice #Ibovespa passa a valer a
partir de 2a . feira . Itaú ( #ITAU4 ) e Bradesco ( #BBDC4 ) com as maiores
…*
Entendo que o ponto separado de 2a é um erro de pré-processamento, a minha
dúvida fica na anotação de feira. Estamos anotando segunda feira como erro
de digitação, visto que a grafia normal é segunda-feira. Como faremos para
a anotação de essas formas (2a feira, 3a feira, etc)?
Gabriel,
No manual, os numerais ordinais recebem ADJ, tanto em formato de número
quanto por extenso.
Como nas expressões citadas, temos numerais ordinais em formato de número
("2a" e "3a"), acredito que eles devam receber ADJ.
No nível sintático, poderemos assinalar que "2a" e "feira", por exemplo,
fazem parte de um todo.
Ariani
Então ficaria:
"2a feira": ADJ NOUN;
"segunda": NOUN ou ADJ?;
"segunda feira": E_PROC E_PROC;
"segunda-feira": NOUN
Não sei se entendi certo hahaha
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PDAIWKLWFZ34AKJLE3TVZJVRANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Boa noite! Me surgiu uma dúvida na seguinte sentença: Acredito que o "que" na sentença indica o presente do subjuntivo e, por não introduzir nenhuma oração subordinada, eu anotaria como CCONJ. No entanto, no documento de palavras ambíguias do material de referência, não há nenhum exemplo de "que" como CCONJ, então fiquei em dúvida se poderia ser essa anotação mesmo ou SCONJ. |
Carol,
Eu já havia discutido esse caso com a Magali e esse "que" parece ser SCONJ,
pois acompanha uma oração com verbo no subjuntivo.
Ariani
Em qui., 15 de jul. de 2021 às 22:11, carolpstl ***@***.***>
escreveu:
… Boa noite!
Me surgiu uma dúvida na seguinte sentença:
"Nestor Cerveró vai falar agora , 11 horas sobre escândalos de a PETR4 .
*Que* comece a volatilidade !"
Acredito que o "*que*" na sentença indica o presente do subjuntivo e, por
não introduzir nenhuma oração subordinada, eu anotaria como CCONJ. No
entanto, no documento de palavras ambíguias do material de referência, não
há nenhum exemplo de "*que*" como CCONJ, então fiquei em dúvida se
poderia ser essa anotação mesmo.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#11 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ATO63PCOXPUUAPHBDOF4KWTTX6BMJANCNFSM42WVHLSQ>
.
--
Professora Associada
Departamento de Letras - Federal de São Carlos
Núcleo Interinstitucional de Linguística Computacional
|
Muito obrigada, professora! |
Conforme combinado na reunião do grupo de anotação do corpus de tweets DANTE, criei o issue para o registro de discussões e dúvidas em relação ao corpus DANTE
The text was updated successfully, but these errors were encountered: