Az LLM-hallucinations nem véletlenek: mintázatok az amerikai bíróságokon
Az Artificial Authority adatbázisa közelít az 1200 kitalált hivatkozási esethez az amerikai bíróságokon, és a szerző most részletesen megvizsgálta, hogy ezek a hamis esetnevek milyen szabályszerűségeket mutatnak. Az elemzés mintegy 5000 granulált hamis idézetre és körülbelül 2000 egyedi kitalált esetnévre támaszkodik, amelyeket Python-alapú adatelemzéssel vizsgált meg.
Az egyik legfontosabb megállapítás, hogy a kitalált hivatkozások körülbelül 20%-a proprietáris azonosítót (Westlaw vagy LexisNexis) tartalmaz, szemben a valódi, de félrehasznált esetekkel, amelyek többnyire semleges azonosítókat használnak. Ez különösen problémás, mivel egy paywallal védett azonosítójú eset létezését szinte lehetetlen ellenőrizni anélkül, hogy az adott platformhoz hozzáférése lenne a jogásznak.
A hamis esetnevek nem véletlenszerűek: az LLM-ek jellemzően a tárgyalt ügy szakterületéhez, feleihez és bírósági helyszínéhez közel maradnak. A Mata v. Avianca-ügyben például szinte minden kitalált hivatkozásnak repülős tematikája volt, az ismétlődő esetnevekben pedig túlnyomórészt közönséges nevek (pl. 'Miller v. United States') szerepeltek helytelen azonosítókkal. Az LLM-ek tehát – emberekhez hasonlóan – az ismerős mintákat követik, ami a hamis hivatkozásokat hitelesnek látszóvá és nehezen észlelhetővé teszi.