Common Voice | |
„Maschinen beibringen, wie echte Menschen sprechen“ | |
Sammlung von gesprochenen Sätzen für eine Spracherkennungs-Datenbank | |
Sprachen | multilingual (Liste der Sprachen) |
---|---|
Betreiber | Mozilla Foundation |
Registrierung | Optional |
Online | seit 19. Juni 2017 |
(aktualisiert 24. Nov. 2024) | |
https://commonvoice.mozilla.org/ |
Common Voice ist ein 2017[1] von Mozilla gestartetes Crowdsourcing-Projekt zur Sammlung von Tonaufnahmen in vielen Sprachen.
Freiwillige sprechen dazu entweder Beispielsätze aus der Wikipedia ein und verifizieren die Aufnahmen anderer Nutzer. Die gesamten Daten sind gemeinfrei („CC0“). Common Voice erschien als Antwort auf die Sprachassistenten der großen Unternehmen, wie Amazon Echo, Siri oder Google Assistant.[2][3]
Der Name „Common Voice“ stammt aus dem Englischen und bedeutet übersetzt etwa „gemeinsame Stimme“. Mozilla hat den Namen in Anlehnung an Creative Commons gewählt, was auf den gemeinsamen Grundgedanken des Allgemeinguts zurückzuführen ist.[4]
Seit dem 6. Juni 2018 können auch deutsche Sätze eingesprochen und überprüft werden.[5] Es existiert eine inoffizielle Android-App.[6]
Seit 2021 unterstützen Nvidia, die Bill & Melinda Gates Foundation, die Deutsche Gesellschaft für Internationale Zusammenarbeit und das britische Foreign and Commonwealth Office das Projekt.[7][8][9]
Die englische Datenbank von Common Voice ist mittlerweile die größte frei zugängliche Sprachdatenbank.[7] Der Digitalisierungsfortschritt in den meisten Sprachen ebbte nach kurzer Zeit ab, nur in wenigen Fällen kam eine kritische Masse zustande:[10]
Sprache | h validiert 2019-12-10 (4.0) |
h validiert 2022-07-04 (10.0) |
h validiert 2022-09-21 (11.0) |
h validiert 2023-03-09 (13.0) |
14.0 | Organisator |
---|---|---|---|---|---|---|
Englisch | 1118 | 2275 | 2319 | 2428 | 2484 | / |
Katalanisch | 246 | 1390 | 1700 | 2014 | 2400 | AINA[11] |
Kinyarwanda | 2001 | 2001 | 2001 | 2001 | Digital Umuganda[12] | |
Weißrussisch | 1089 | 1159 | 1341 | 1511 | ? | |
Esperanto (keine Standardaussprache) | 1872[13] | 1414 | 1431 | 1430 | [14] | |
Deutsch | 483 | 1136 | 1157 | 1257 | 1290 | / |
Französisch | 350 | 868 | 906 | 941 | 958 | / |
Kabylisch | 263 | 553 | 564 | 565 | 565 | Universität Tizi Ouzou etc.[15] |
Spanisch | 168 | 411 | 413 | 482 | 503 | / |
Luganda | 407 | 408 | 437 | 437 | [16] | |
Persisch | 212 | 327 | 344 | 355 | 357 | |
Suaheli | / | 326 | 338 | 348 | bezahlt von Mozilla[17] | |
Italienisch | 85 | 321 | 326 | 342 | 346 | |
Baschkirisch | 256 | 256 | 257 | 257 | [18] | |
Chinesisch | 64 | 130 | 227 | 231 | ||
Tamil | 224 | 225 | 229 | 229 | ||
Olyk-Mari | 114 | 133 | 148 | 175 | ? |