Plná citace: CommonCrawl (2025). „Setting the Record Straight: Common Crawl’s Commitment to Transparency, Fair Use, and the Public Good.” Common Crawl Blog, 4. 11. 2025. Odkaz: https://commoncrawl.org/blog/setting-the-record-straight-common-crawls-commitment-to-transparency-fair-use-and-the-public-good
⚠️ ADVOKAČNÍ AKTÉR — Common Crawl je přímo zainteresovaný v debatě o legitimitě svého korpusu. Stanovisko čti obezřetně, ne jako neutrální měření.
Klíčová zjištění
- Přímá reakce na článek The Atlantic („…AI Industry’s Dirty Work”, 4. 11. 2025), který obvinil Common Crawl, že „lže vydavatelům”. ED Rich Skrenta to odmítá.
- Argumenty: CCBot nechodí za paywall, ctí
robots.txt, identifikuje se; archiv je v immutable WARC formátu → smazat nejde, ale URL se filtrují z dalších crawlů a indexů („no captures” v indexu ≠ podvod). Jednali s NYT a Danish Rights Alliance. - Financování: dlouhodobě Elbaz Family Foundation + v poslední době i dary některých AI firem (malý zlomek; „žádný dárce nemá kontrolu nad tím, co sbíráme”).
Kam ve wiki vstupuje
- licencovani-trzni-asymetrie — druhá strana sporu o transparentnost dat.
- common-crawl.
Výhrady / síla důkazu
- Sebeobhajoba aktéra; nelze brát jako nezávislé doložení tvrzení.