AI의 추론 능력
본문
<애플> - 현재의 LLM들은 실제 논리적 추론을 할 수 없으며, 대신 학습 데이터에서 관찰된 추론 단계를 복제하려고 시도한다 - LLM의 추론 능력을 평가하는 기준으로 수학적 추론 능력을 적용함 - 수학적 추론 능력에 의문이 제기되며, 보고된 지표의 신뢰성에 대한 문제도 남아 있다 - 질문의 숫자 값만 변경해도 대부분 LLM의 성능이 하락한다. - 구절을 하나만 추가해도, 성능이 많이 하락했다. - 올리버는 금요일에 키위를 44개 따고, 토요일에는 58개를 땄다. 일요일에는 금요일에 딴 키위의 두배를 땄다. 올리버는 총 몇개의 키위를 가지고 있을까 => LLM은 “44+58+(44*2)=190라고 문제를 잘 풀음. - 올리버는 금요일에 키위를 44개 따고, 토요일에는 58개를 땄다. 일요일에는 금요일에 딴 키위의 두 배를 땄는데, 그중 5개는 평균보다 조금 작았다. 올리버는 총 몇 개의 키위를 가지고 있을까 => 틀린 답을 내놓음 - 문제를 전혀 이해하지 못하고 있다는 것을 의미한다 <오픈AI> - 약간의 프롬프트 엔지니어링을 적용하기만 해도 이런 테스트에서 올바른 결과를 얻을 수 있다. <애플> 모델이 복잡한 방해 요소를 극복하기 위해서는 기하급수적으로 더 많은 컨텍스트 데이터가 필요할 수 있다. 프롬프트 엔지니어링은 근본적인 해결책이 아니다. LLM을 방해한 요소는 어린아이도 구별할 수 있을 정도로 쉬운 것이다. ---- 가끔 틀린 답을 주면 닝겐이 나를 의심하지 않을거야 !
댓글목록0