The Pile An 800GB Dataset of Diverse Text for Language Modeling

https://pile.eleuther.ai/

The Pile
The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.
pile.eleuther.ai

Publié

2 janvier 2021

dans

Machine Learning, NLP, Notes

par

Francis

Étiquettes :

Machine Learning, NLP

The Pile An 800GB Dataset of Diverse Text for Language Modeling

Partager :