Plná citace: Reisner, A. (2025). „Common Crawl Is Doing the AI Industry’s Dirty Work.” The Atlantic, 4. 11. 2025. Odkaz: https://www.theatlantic.com/technology/archive/2025/11/common-crawl-ai-training-data/684455/
Klíčová zjištění
- Investigativní text upozorňuje, že Common Crawl fakticky zprostředkovává AI firmám obsah, který by jinak musely získávat samy, a že jeho role i transparentnost jsou sporné.
- Vydavatelé jen částečně vědí, v jakém rozsahu a za jakých podmínek byl jejich obsah použit.
Kam ve wiki vstupuje
- licencovani-trzni-asymetrie — netransparentnost původu trénovacích dat jako zdroj napětí.
- common-crawl — kritika role korpusu.
Výhrady / síla důkazu
- Novinářská reportáž, nikoli akademické měření. Common Crawl část výtek odmítá (commoncrawl-2025).