米カリフォルニア大学サンディエゴ校に所属する研究者らが発表した論文「People cannot distinguish GPT-4 from a human in a Turing test」は、AIが人間と区別がつかないレベルに達しているかどうかを調べるために、チューリングテストを実施した研究報告である。チューリングテストとは、人間の判定者が、人間とAIのどちらかと会話し、相手が人間かAIかを当てるというものである。実験では、参加者500人を対象に、3種類のAI(ELIZA、GPT-3.5、GPT-4)と人間が、判定者役の人間参加者とランダムにマッチングされ、テキストチャットで5分間の会話を行う。判定者には、相手が人間かAIかを判断し、その確信度と理由を答えてもらった。結果として、GPT-4は54%、GPT-3.5は50%の確率で人間だと判定された。これは古典的なAIであるELIZA(22%)よりも高く、統計的にチャンスレベル(50%)と有意差がなかった。一方、実際の人間は67%の確率で人間と判定された。