Plná citace: Schaul, K., Chen, S. Y. a Tiku, N. (2023). „See the websites that make AI bots like ChatGPT sound so smart.” The Washington Post, 19. 4. 2023. Odkaz: https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

Klíčová zjištění

  • Analýza WaPo + Allenova institutu nad C4 (15 mil. webů, použito pro Google T5 a Facebook LLaMA; OpenAI svá data netají náhodou — nezveřejňuje je). Pořadí dle tokenů: #1 patents.google, #2 Wikipedia, #3 Scribd, #4 NYT, #6 LA Times, #7 Guardian, #8 Forbes, #9 HuffPost, #11 WaPopolovina top 10 jsou zpravodajské weby.
  • Korpus obsahuje i nedůvěryhodné zdroje (RT #65, Breitbart #159) a znak © přes 200 mil.×. C4 vznikla z dubnového scrapu Common Crawl 2019.

Kam ve wiki vstupuje

Výhrady / síla důkazu

  • Jde o starší generaci korpusů a starší modely; přesné podíly se liší podle metodiky. Silnější teze „bez novinářských dat by modely nefungovaly” zůstává strategickým závěrem, ne změřeným faktem.