GOOFRE version 2: voir et traiter 600 milliards de mots

Autores

  • Etienne Brunet Université de Nice Sophia Antipolis, France
  • Laurent Vanni Université de Nice Sophia Antipolis, France

DOI:

https://doi.org/10.5007/1807-9288.2014v10n2p75

Resumo

Les données de Google Books ont doublé en deux ans, en franchissant le cap des 500 milliards de mots. Un  nouveau traitement a repris les images scannées pour en proposer une lecture  plus fidèle. Et pour la première fois les textes enregistrés ont bénéficié de la désambiguïsation  et de la lemmatisation. Enfin le site Culturomics a fourni les outils nécessaires pour en assurer la diffusion. Il convenait donc de procéder à une nouvelle expertise et de créer une nouvelle base, pourvue de tout  l’appareillage statistique qu’exige, en réseau ou en local, l’exploitation des grands corpus.

Biografia do Autor

Etienne Brunet, Université de Nice Sophia Antipolis, France

Étienne Brunet is an emeritus professor at the University of Nice Sophia Antipolis, and founder of the Bases, Corpus, Language Laboratory. Brunet researches Computational Linguistics and Textual Statistics, from which he is a pioneer and world reference. He is the designer of the academic software Hyperbase2 with Pierre Guiraud and Charles Muller. Brunet wrote over a hundred articles and a dozen books. One may highlight his reference theoretical and practical work on Literary Lexicometry, Le vocabulaire français de 1789 à nos jours (Genève-Paris, Slatkine-Champion, 1981, 3 volumes, 1824 p.).

Laurent Vanni, Université de Nice Sophia Antipolis, France

Laurent Vanni is an engineer at the University of Nice Sophia-Antipolis. He is part of the team of the Bases, Corpus, Language Laboratory.

Publicado

2014-12-16

Edição

Seção

Artigos