Zürcher Nachrichten - ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

EUR -
AED 3.884112
AFN 71.842118
ALL 98.407086
AMD 418.382827
ANG 1.904052
AOA 963.334412
ARS 1067.478686
AUD 1.623901
AWG 1.903443
AZN 1.794796
BAM 1.958538
BBD 2.133071
BDT 126.246464
BGN 1.956411
BHD 0.398584
BIF 3121.236582
BMD 1.057468
BND 1.420018
BOB 7.300169
BRL 6.385836
BSD 1.056472
BTN 89.209273
BWP 14.432105
BYN 3.456816
BYR 20726.374841
BZD 2.129466
CAD 1.481317
CDF 3034.93376
CHF 0.930842
CLF 0.037478
CLP 1034.140336
CNY 7.650887
CNH 7.658232
COP 4672.105578
CRC 539.56184
CUC 1.057468
CUP 28.022905
CVE 110.418819
CZK 25.269241
DJF 188.132077
DKK 7.45773
DOP 63.790069
DZD 141.199473
EGP 52.443864
ERN 15.862022
ETB 130.882601
FJD 2.394689
FKP 0.834678
GBP 0.832144
GEL 2.89217
GGP 0.834678
GHS 16.322738
GIP 0.834678
GMD 75.080256
GNF 9104.941928
GTQ 8.151355
GYD 220.957805
HKD 8.230142
HNL 26.729741
HRK 7.543194
HTG 138.506876
HUF 412.898464
IDR 16772.290106
ILS 3.849248
IMP 0.834678
INR 89.364933
IQD 1383.927878
IRR 44492.970492
ISK 144.893869
JEP 0.834678
JMD 166.453452
JOD 0.750064
JPY 158.647184
KES 137.20659
KGS 91.788017
KHR 4258.052472
KMF 493.30267
KPW 951.720893
KRW 1475.400294
KWD 0.325034
KYD 0.880426
KZT 541.033686
LAK 23186.299635
LBP 94605.890573
LKR 307.107816
LRD 189.636863
LSL 19.197844
LTL 3.122429
LVL 0.639652
LYD 5.15418
MAD 10.572328
MDL 19.343947
MGA 4932.871728
MKD 61.53198
MMK 3434.615153
MNT 3593.276561
MOP 8.468597
MRU 42.144104
MUR 49.119565
MVR 16.338205
MWK 1831.951998
MXN 21.578747
MYR 4.695418
MZN 67.578562
NAD 19.197844
NGN 1782.298545
NIO 38.87581
NOK 11.677213
NPR 142.73754
NZD 1.787109
OMR 0.40711
PAB 1.056477
PEN 3.964216
PGK 4.260055
PHP 62.008341
PKR 293.695632
PLN 4.306043
PYG 8239.477991
QAR 3.850864
RON 4.977182
RSD 116.973946
RUB 114.292913
RWF 1470.58336
SAR 3.972643
SBD 8.872782
SCR 14.656082
SDG 636.066778
SEK 11.529083
SGD 1.416288
SHP 0.834678
SLE 24.005957
SLL 22174.582418
SOS 603.74104
SRD 37.439649
STD 21887.454736
SVC 9.243877
SYP 2656.920186
SZL 19.205755
THB 36.205626
TJS 11.515605
TMT 3.711713
TND 3.337349
TOP 2.476694
TRY 36.684071
TTD 7.179001
TWD 34.363523
TZS 2791.715446
UAH 43.936406
UGX 3898.430702
USD 1.057468
UYU 45.25304
UZS 13590.224998
VES 49.951568
VND 26803.115301
VUV 125.544738
WST 2.952018
XAF 656.872054
XAG 0.034496
XAU 0.000398
XCD 2.857861
XDR 0.808126
XOF 656.872054
XPF 119.331742
YER 264.287735
ZAR 19.09439
ZMK 9518.473671
ZMW 28.497699
ZWL 340.504298
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio / Foto: Kirill Kudryavtsev - AFP/Archivos

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.

Tamaño del texto:

Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.

¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).

El resultado de la investigación es que los LLM muestran "un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos", explica la investigadora a AFP.

Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.

¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?

Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?

La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.

Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.

"Obtenemos una respuesta diferente cada vez", apuntala la investigadora.

Los LLM "pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12", afirma.

En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía "estereotipos de género dañinos".

- "No estoy muy seguro" -

Estos modelos "no fallan en estas tareas de la misma manera que falla un humano", señala el estudio.

Es lo que el profesor Musolesi llama "errores de máquina".

"Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto", apunta.

La máquina funciona con "una especie de pensamiento lineal", dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.

Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que "los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos".

Los humanos son "máquinas capaces de crear sentido", lo que las máquinas no saben hacer, explica a AFP.

Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.

Macmillan-Scott afirma sospechar que los modelos llamados "cerrados", es decir cuyo código operativo permanece en secreto, "incorporan otros mecanismos en segundo plano" para responder a preguntas matemáticas.

En todo caso, por el momento, es impensable confiar una decisión importante a un LLM.

Según el profesor Mosulesi, habría que entrenarlos para que respondan "No estoy muy seguro" cuando sea necesario.

R.Schmid--NZN