Neziskový webový korpus, který fakticky slouží jako vstup pro trénink velkých jazykových modelů (mj. odvozená sada C4). Stal se ohniskem sporu o transparentnost původu dat.
Co od nich v bázi máme
- Kritika role korpusu jako zprostředkovatele obsahu pro AI (reisner-2025).
- Vlastní obhajoba transparentnosti a fair use (commoncrawl-2025 — ⚠️ aktér ve vlastní věci).
- → licencovani-trzni-asymetrie (netransparentnost dat jako zdroj napětí).