GOOFRE version 2: voir et traiter 600 milliards de mots
DOI :
https://doi.org/10.5007/1807-9288.2014v10n2p75Résumé
Les données de Google Books ont doublé en deux ans, en franchissant le cap des 500 milliards de mots. Un nouveau traitement a repris les images scannées pour en proposer une lecture plus fidèle. Et pour la première fois les textes enregistrés ont bénéficié de la désambiguïsation et de la lemmatisation. Enfin le site Culturomics a fourni les outils nécessaires pour en assurer la diffusion. Il convenait donc de procéder à une nouvelle expertise et de créer une nouvelle base, pourvue de tout l’appareillage statistique qu’exige, en réseau ou en local, l’exploitation des grands corpus.
Téléchargements
Publiée
Numéro
Rubrique
Licence
Les auteurs publiant dans Texto digital donnent leur accord aux dispositions suivantes :
1. Ils conservent les droits d'auteur pour les publications ultérieures, tout en accordant à Texto digital les droits pour la première publication selon les termes de la Licence Creative Commons - Attribution 4.0 international.
2. La Licence Creative Commons - Attribution 4.0 international permet de copier et de redistribuer le matériel sur tout support ou format, ainsi que faire des adaptations, pour toute finalité.
3. Il est autorisé aux auteurs d’assumer d’autres engagements visant à la distribution de la version du document publié par Texto digital dans d’autres plate-formes, tels un répositoire institutionnel ou même un livre collectif, pourvu qu’on y fasse informer explicitement les références de la publication originale dans notre revue.
