Passer au contenu
Récents :
  • GitHub – jalammar/ecco: Visualize and explore NLP language models. Ecco creates interactive visualizations directly in Jupyter notebooks explaining the behavior of Transformer-based language models (like GPT2).
  • Data Science Infographic
  • SIRUS: Stable and Interpretable RUle Set
  • CLIP: Connecting Text and Images
  • Build Your own Recommendation Engine-Netflix Demystified: Demo+Code

Notes de Francis

  • Accueil
    • Notes
    • Uncategorized
  • Machine Learning
    • Deep Learning
    • NLP
    • GPU
    • Google AI
  • DevOps
    • Azure
    • Container
  • Code
    • Python
    • GitHub
    • Raspberry Pi
  • Design
    • Visual
  • Startup
    • Human Resources
  • Social Media
  • SEO
Notes 

The Pile An 800GB Dataset of Diverse Text for Language Modeling

2 janvier 2021 Francis

https://pile.eleuther.ai/

The Pile
The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.
pile.eleuther.ai

Partager :

  • Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
  • Cliquez pour partager sur Facebook(ouvre dans une nouvelle fenêtre)

Articles similaires

  • ← Ludwig
  • Koan – A word2vec negative sampling implementation with correct CBOW update. kan only depends on Eigen. →

Vous pourrez aussi aimer

Summarization Using Pegasus Model with the Transformers Library

22 novembre 2020 Francis

Top Google AI Tools for Everyone – Towards Data Science

5 mars 2020 Francis

Microsoft Offers New Documentation for Blazor and gRPC in ASP.NET Core — Visual Studio Magazine

8 septembre 2020 Francis
Copyright © 2021 Notes de Francis. Tous droits réservés.
Theme ColorMag par ThemeGrill. Propulsé par WordPress.