Zürcher Nachrichten - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.093506
AFN 76.885697
ALL 99.156844
AMD 431.61136
ANG 2.009212
AOA 1033.996627
ARS 1072.997336
AUD 1.641238
AWG 2.006096
AZN 1.894898
BAM 1.953947
BBD 2.250965
BDT 133.223643
BGN 1.952711
BHD 0.420041
BIF 3231.776803
BMD 1.114498
BND 1.440534
BOB 7.703555
BRL 6.123719
BSD 1.114843
BTN 93.176654
BWP 14.737155
BYN 3.64844
BYR 21844.159752
BZD 2.247128
CAD 1.513226
CDF 3199.72349
CHF 0.948009
CLF 0.037589
CLP 1037.207355
CNY 7.861562
CNH 7.857762
COP 4641.270973
CRC 578.440993
CUC 1.114498
CUP 29.534196
CVE 110.159036
CZK 25.061677
DJF 198.518152
DKK 7.458688
DOP 66.916533
DZD 147.443868
EGP 54.087145
ERN 16.717469
ETB 129.365881
FJD 2.455963
FKP 0.848756
GBP 0.838887
GEL 3.04302
GGP 0.848756
GHS 17.526063
GIP 0.848756
GMD 76.360453
GNF 9631.735079
GTQ 8.617904
GYD 233.214621
HKD 8.68467
HNL 27.654771
HRK 7.577484
HTG 147.097844
HUF 393.219452
IDR 16938.139791
ILS 4.215003
IMP 0.848756
INR 93.066206
IQD 1460.414859
IRR 46912.005489
ISK 152.106934
JEP 0.848756
JMD 175.153874
JOD 0.78973
JPY 160.913487
KES 143.815085
KGS 93.883634
KHR 4527.705666
KMF 491.883517
KPW 1003.04752
KRW 1489.253392
KWD 0.340031
KYD 0.929027
KZT 534.493464
LAK 24617.20987
LBP 99832.321807
LKR 340.137394
LRD 222.964527
LSL 19.571513
LTL 3.290823
LVL 0.674149
LYD 5.294169
MAD 10.810335
MDL 19.453724
MGA 5042.127276
MKD 61.543927
MMK 3619.845856
MNT 3787.063972
MOP 8.948752
MRU 44.304377
MUR 51.133282
MVR 17.119128
MWK 1932.93201
MXN 21.562748
MYR 4.686458
MZN 71.160467
NAD 19.571337
NGN 1827.163772
NIO 41.030532
NOK 11.743114
NPR 149.085599
NZD 1.79238
OMR 0.429047
PAB 1.114823
PEN 4.178581
PGK 4.364018
PHP 62.09258
PKR 309.759007
PLN 4.271826
PYG 8697.750557
QAR 4.064445
RON 4.974451
RSD 117.076905
RUB 103.223004
RWF 1502.88806
SAR 4.182122
SBD 9.258064
SCR 14.81171
SDG 670.372494
SEK 11.382251
SGD 1.441191
SHP 0.848756
SLE 25.463272
SLL 23370.458959
SOS 637.101453
SRD 33.663463
STD 23067.857331
SVC 9.754617
SYP 2800.209454
SZL 19.578606
THB 36.808558
TJS 11.850548
TMT 3.900743
TND 3.377996
TOP 2.610264
TRY 38.023817
TTD 7.582672
TWD 35.665604
TZS 3038.346537
UAH 46.080848
UGX 4130.23089
USD 1.114498
UYU 46.065689
UZS 14186.544671
VEF 4037327.360851
VES 40.96537
VND 27422.221975
VUV 132.315435
WST 3.117767
XAF 655.323694
XAG 0.035728
XAU 0.000426
XCD 3.011987
XDR 0.826216
XOF 655.326631
XPF 119.331742
YER 278.9867
ZAR 19.526231
ZMK 10031.815557
ZMW 29.514477
ZWL 358.867884
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

O.Krasniqi--NZN