Le Thesaurus Linguae Graecae (TLG) est un centre de recherche à l'Université de Californie à Irvine consacré à la réalisation d'une base de données du même nom regroupant l'ensemble des textes écrits en grec depuis l'Antiquité jusqu'à nos jours, sous la forme d'une bibliothèque numérique disponible sous forme de CD-ROM ou sur Internet.
Le Thesaurus Linguae Graecae a été fondé en 1972 par Marianne McDonald (graduate student à l'époque et aujourd'hui professeur de théâtre et de littérature classique à l'Université de Californie à San Diego) dans le but de créer une collection numérique complète de tous les textes subsistants écrits en grec depuis l'Antiquité jusqu'à l'époque actuelle[1]. Le nom de Thesaurus Linguae Graecae reprend le titre d'un ouvrage d'Henri Estienne paru en 1572. Depuis 1972, le TLG a rassemblé et numérisé la plupart des textes littéraires subsistants rédigés en grec depuis Homère jusqu'à la chute de Constantinople en 1453 et au-delà. Theodore Brunner (1934-2007) a dirigé le Centre de 1972 jusqu'à sa retraite de l'Université de Californie en 1998. Maria Pantelia, elle aussi professeur de littérature classique à l'UC Irvine, lui a succédé en 1998, et dirige le centre depuis cette date.
Une si vaste entreprise était une gageure ; elle a été tenue avec l'aide de plusieurs spécialistes de littérature classique et d'experts en technologie, mais surtout grâce aux efforts de David Woodley Packard et de son équipe qui ont créé le système Ibycus, c'est-à-dire le matériel informatique et les logiciels utilisés à l'origine pour relire et explorer le corpus du TLG. David W. Packard a également mis au point un code beta utilisé pour rendre la polytonie grecque. La collection TLG a été initialement distribuée sur CD-ROM. La première version du TLG, le « TLG A », sorti en 1985, était le premier disque compact à contenir autre chose que de la musique, et contenait environ 27 millions de mots[1]. Les versions ultérieures sont sorties en 1988 (deuxième version, dite « TLG C ») et en 1992 (« TLG D »), grâce au soutien technique de David W. Packard.
À la fin des années 1990, il devenait évident que l'ancienne technologie Ibycus était dépassée. Sous la direction du professeur Maria Pantelia, un certain nombre de nouveaux projets ont été entrepris, incluant la migration massive de l'ancien système, la mise au point d'un nouveau système pour numériser, corriger, et gérer les textes collectés ; un nouveau CD-ROM (appelé le « TLG E »), est paru en 1999. Le corpus a été mis en ligne sur Internet en 2001, et les améliorations suivantes ont été développées directement pour la version en ligne. Dans le même temps, le TLG entreprenait le projet de travailler avec l'UTC (Unicode Technical Committee) afin d'inclure tous les caractères nécessaires pour coder et afficher le grec selon le standard Unicode. Le corpus a été considérablement accru et continue de l'être pour inclure les textes grecs byzantins et médiévaux, et enfin les textes modernes. L'évolution la plus récente (à partir de ) a été la lemmatisation du corpus grec, entreprise importante du fait de la nature extrêmement flexionnelle de la langue grecque et de la complexité du corpus, qui couvre une évolution littéraire de plus de deux mille ans.
Depuis 2001 le corpus TLG est consultable en ligne par les membres des institutions abonnées, dont le nombre dans le monde entier dépassait 2000 au second semestre 2010[1]. Toutes les informations bibliographiques, et des extraits de ces textes, sont à la disposition du grand public.
Le TLG encode l'alphabet grec, ses signes diacritiques et sa ponctuation sous la forme d'un Beta Code[2]. Pour consulter la base de données dans sa version CD-Rom ou y effectuer des recherches, l'utilisateur doit avoir recours à un logiciel d'interrogation du TLG qui affiche les textes et offre diverses fonctions supplémentaires. Le centre de recherche du Thesaurus Linguae Graecae ne distribue pas lui-même de logiciel d'interrogation du TLG, mais de nombreux logiciels ont été et sont toujours développés par d'autres institutions ou même par des particuliers, afin d'utiliser les CD-ROM sur PC et sur Macintosh[3]. Seules les versions les plus récentes de ces logiciels prennent en charge le standard Unicode.
Sur la version en ligne du TLG, l'utilisateur a le choix entre diverses options d'affichage, dont l'Unicode.