Neziskový webový korpus, který fakticky slouží jako vstup pro trénink velkých jazykových modelů (mj. odvozená sada C4). Stal se ohniskem sporu o transparentnost původu dat.

Co od nich v bázi máme