Analýza: Texty generované AI jsou často předvídatelnější než texty psané lidmi

Už uběhly tři roky od chvíle, kdy byl ChatGPT uveden na trh, což disruptovalo všechny odvětví, kde je psaní (a čtení) součástí. Téměř okamžitě po jeho vydání se začaly vyvíjet snahy odhalit jeho stopy v textech. Metody detekce lze rozdělit na místní, které se snaží zjistit, zda je konkrétní text generován systémem AI, a globální, které nepracují na úrovni jednotlivých článků, ale zaměřují se na jazykové trendy v textech generovaných AI.

Několik zřejmých znaků, které naznačují, že článek byl vytvořen pomocí AI, zahrnuje smyšlené odkazy nebo náhodné zahrnutí frází jako například „Jako model jazyka AI“. Většinou však bývají potřeba sofistikovanější metody. Některé z těchto metod vycházejí z statistického měřítka zvaného perplexita, což v podstatě měří, jak překvapivá je posloupnost slov. Texty generované AI mají tendenci mít nižší perplexitu nebo být předvídatelnější než texty psané lidmi.

Jako příklad lze uvést show Brendan O’Connor Show z RTÉ Radio 1, která se ptá, zda AI dokáže psát lepší poezii než básník.

Další metody vycházejí z konceptu vodoznaku, což je proces, který ukrývá signál v textu, který je generován. Jiné využívají algoritmy strojového učení, aby se naučily vzorce, které dokážou rozlišit mezi textem generovaným AI a textem psaným člověkem. I když se neustále zdokonalují, žádná z těchto metod zatím není dostatečně spolehlivá pro praktické použití. Hlavní problém představuje jejich potencionál pro falešné pozitivní výsledky: student může být mylně obviněn, že používal AI k vypracování úkolu.

Globální přístup k detekci přítomnosti AI v textu se snaží vyhledávat slova, fráze nebo syntaktické vzorce, které jsou spojeny s psaním generovaným AI. Existují dva hlavní způsoby, jak to udělat: porovnat texty napsané před a po roce 2022, přičemž se hledají neobvyklé výkyvy v užívání konkrétních slov nebo frází, a/nebo porovnávat texty, o nichž víme, že byly napsané člověkem, s texty, které víme, že byly generovány AI.

Někdy dramatické vzrůstání popularity určitého slova může být vysvětleno světovými událostmi, například pandemickými slovy jako je omikron. Jindy však neexistuje žádné zřejmé vysvětlení, což naznačuje, že do hry může vstoupit ChatGPT nebo jiné jazykové modely. Například fráze „Rád se vyjadřuji“ používaná americkými politiky vzrostla v popularitě mezi britskými politiky podle analýzy nedávných projevů v britském parlamentu. Možná nejznámějším objevem z této řady studií byla evidentní náklonnost ChatGPT k slovu „prozkoumat“ v vědeckém psaní.

Jedním z problémů při pokusu pochopit dopad ChatGPT na psaní je, že honíme se za pohybujícím se terčem. Modely, které stojí za ChatGPT, se mění každých několik měsíců a společnosti vyvíjející tyto modely se neustále snaží udělat je podobnější lidem. Takže pokud je „prozkoumat“ znakem textu generovaného AI, modely AI mohou být upraveny tak, aby upřednostňovaly odpovědi obsahující jiné výrazy; nebo uživatelé ChatGPT mohou do svých pokynů zahrnout instrukce, které se tomuto slovu vyhnou.

Abychom ilustrovali tuto myšlenku, nedávná studie Washington Post, která analyzovala více než 300 000 zpráv z ChatGPT od června 2024 do července 2025, zjistila, že užívání slova „prozkoumat“ ChatGPT klesá. Současně generativní AI mění psaní lidí. Mnoho lidí je vůči AI sceptických a mohou se vyhýbat slovům, o nichž vědí, že jsou s ní spojena, když píší. Jiní mohou být ovlivněni a tato slova začínají používat více, protože jsou jemně ovlivňováni články generovanými AI, které čtou. Oddělit tyto různé faktory není jednoduché.

Ohromujících 70 % všech zpráv analyzovaných ChatGPT obsahovalo emoji, přičemž asi třetina obsahovala ✅. Jaké jsou tedy nové oblíbené výrazy ChatGPT? Podle studie Washington Post jsou mezi novými favority ChatGPT slova jako „jádro“ a „moderní“. Emojis jsou také populární, zejména emoji mozku 🧠 a kontrolního znaménka ✅. Ohromujících 70 % všech analyzovaných zpráv obsahovalo emoji, přičemž asi třetina obsahovala ✅. Fráze „nejen X, ale i Y“ narůstá, stejně jako neformální kontrakce jako „je“ a „jste“. Pomlčka (—) dále roste na popularitě.

A jak možná zjistit, že něco bylo napsáno člověkem? V současnosti nezbývá než nadále zkoumat hluboký výzkum tohoto zcela moderního problému ✅🧠.

Sledujte RTÉ Brainstorm na WhatsApp a Instagramu pro více příběhů a aktualizací.

Názory vyjádřené v tomto textu jsou názory autora a neodrážejí názory RTÉ.