Plná citace: Schaul, K., Chen, S. Y. a Tiku, N. (2023). „See the websites that make AI bots like ChatGPT sound so smart.” The Washington Post, 19. 4. 2023. Odkaz: https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
Klíčová zjištění
- Analýza WaPo + Allenova institutu nad C4 (15 mil. webů, použito pro Google T5 a Facebook LLaMA; OpenAI svá data netají náhodou — nezveřejňuje je). Pořadí dle tokenů: #1 patents.google, #2 Wikipedia, #3 Scribd, #4 NYT, #6 LA Times, #7 Guardian, #8 Forbes, #9 HuffPost, #11 WaPo — polovina top 10 jsou zpravodajské weby.
- Korpus obsahuje i nedůvěryhodné zdroje (RT #65, Breitbart #159) a znak © přes 200 mil.×. C4 vznikla z dubnového scrapu Common Crawl 2019.
Kam ve wiki vstupuje
- licencovani-trzni-asymetrie — doklad významu zpravodajských dat v tréninku.
- common-crawl — C4 je odvozena z webového korpusu.
Výhrady / síla důkazu
- Jde o starší generaci korpusů a starší modely; přesné podíly se liší podle metodiky. Silnější teze „bez novinářských dat by modely nefungovaly” zůstává strategickým závěrem, ne změřeným faktem.