Common Voice

Common Voice
Cineálbunachar sonraí gutha agus sluafhoinsiú Cuir in eagar ar Wikidata
Bunleagan19 Meitheamh 2017
CeadúnasCeadúnas Creative Commons CC0 Cuir in eagar ar Wikidata
Ar fáil sa
Saintréithe teicniúla
Gléas ionchuirscáileán tadhaill
Foireann
DáileoirGoogle Play
Tuilleadh eolais
Láithreán Gréasáincommonvoice.mozilla.org (ilteangacha) Cuir in eagar ar Wikidata

Is tionscadal sluafhoinsithe é Common Voice a chuir Mozilla ar bun chun corpas cainte saor agus oscailte a chruthú. Tacaíonn oibrithe deonacha leis an tionscadal trí shampla-abairtí a thaifeadadh le micreafón agus trí thaifeadtaí úsáideoirí eile a athbhreithniú. Bailítear na habairtí tras-scríofa i mbunachar sonraí gutha atá ar fáil faoin gceadúnas fearainn phoiblí CC0.[1] Cinntíonn an ceadúnas seo gur féidir le forbróirí an bunachar sonraí a úsáid le haghaidh feidhmchlár guth-go-téacs agus téacs-go-guth gan srianta ná costais.

Fuair polasaí seo na foinse oscailte moladh ó NÓS: "Ba chóir dúinn uile feidhmiú de réir an chur chuige seo, le gur féidir linn acmhainní a roinnt agus tógáil ar obair a chéile."[2] Táthar ag súil go gcuirfidh an chorpas seo le hinniúlacht taighdeoirí samhail aitheanta cainte a chur ar fáil don Ghaeilge.[3]

Tá sé mar aidhm ag Common Voice samplaí gutha éagsúla a sholáthar. De réir Katharina Borchert ó Mozilla, bhí go leor tionscadal ann cheana a bhain úsáid as tacair shonraí ó raidió poiblí nó a raibh tacair shonraí acu nach raibh ionadaíocht leordhóthanach ann do mhná ná do dhaoine le blasanna láidre.[4]

Bunachar sonraí gutha

[cuir in eagar | athraigh foinse]

Scaoileadh an chéad tacar sonraí i mí na Samhna 2017. Bhí níos mó ná 20,000 úsáideoir ar fud an domhain tar éis 500 uair a chloig d’abairtí Béarla a thaifeadadh.[5]

I mí Feabhra 2019, eisíodh an chéad bhaisc teangacha lena n-úsáid. Áiríodh leis seo 18 teanga: Béarla, Fraincis, Gearmáinis agus Mandairínis, ach teangacha nach bhfuil chomh coitianta céanna ar nós Breatnais agus an Chaibílis. San iomlán, bhí beagnach 1,400 uair an chloig de thaifeadtaí gutha ann ó níos mó ná 42,000 rannpháirtí.[6]

Ó mhí Iúil 2020 i leith, tá 7,226 uair an chloig de thaifeadtaí gutha bailithe sa bhunachar sonraí i 54 teanga, agus tá 5,591 uair an chloig díobh sin deimhnithe ag oibrithe deonacha.[7]

I mí na Bealtaine 2021, i ndiaidh na hoibre chun an Ruandais a chur leis, fuair siad deontas chun an Ciosvahaílis a chur leis freisin.[8]

Ag tús 2022, chuaigh Bengali.AI i gcomhpháirtíocht le Common Voice chun an tionscadal "Bangla Speech Recognition" a bhfuil sé mar aidhm aige go dtuigfidh meaisíní an Bheangáilis. Bailíodh 2000 uair an chloig d'urlabhra agus é mar aidhm níos mó ná 10,000 uair an chloig a bhaint amach.[9]

I Meán Fómhair 2022, fógraíodh gurbh í Tíbhis Ghána an 100ú teanga a cuireadh le bunachar sonraí Mozilla Common Voice.[10]

Faoi Dheireadh Fómhair 2022, bailíonn Mozilla Common Voice sonraí gutha go hoifigiúil do na teangacha seo a leanas:[11]

Naisc sheachtracha

[cuir in eagar | athraigh foinse]

Féach freisin

[cuir in eagar | athraigh foinse]
  1. Tacair Sonraí”. commonvoice.mozilla.org. Dáta rochtana: 2024-06-26.
  2. Eoin P. Ó Murchú (2018-08-08). "Hóra a Alexa, an gcluin tú mé?". NÓS. Dáta rochtana: 2025-06-26.
  3. "Cainteoirí dúchais na Mumhan á lorg". NÓS (2019-04-16). Dáta rochtana: 2025-06-26.
  4. "Why do we gender AI? Voice tech firms move to be more inclusive". The Guardian. Cartlannaíodh an bunleathanach ar 19 December 2022.
  5. Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset”. blog mozilla.org (November 29, 2017). Cartlannaíodh an bunleathanach ar November 29, 2017. Dáta rochtana: November 19, 2019.
  6. Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages”. VentureBeat (February 28, 2019). Cartlannaíodh an bunleathanach ar March 4, 2019. Dáta rochtana: November 19, 2019.
  7. Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing”. VentureBeat (1 July 2020). Cartlannaíodh an bunleathanach ar March 10, 2021. Dáta rochtana: 1 April 2021.
  8. Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa” (en). Mozilla Foundation (2021-05-25). Cartlannaíodh an bunleathanach ar 2022-12-19. Dáta rochtana: 2021-06-03.
  9. Bengali.AI: Democratising AI research in Bangla” (en). The Business Standard (2022-12-23). Cartlannaíodh an bunleathanach ar 2022-12-24. Dáta rochtana: 2022-12-25.
  10. Onukwue (23 September 2022). “Ghana’s most popular language is now on Mozilla Common Voice” (en-us). Quartz. Cartlannaíodh an bunleathanach ar 2 December 2022. Dáta rochtana: 3 October 2022.
  11. Languages” (en). commonvoice.mozilla.org. Cartlannaíodh an bunleathanach ar 24 December 2022. Dáta rochtana: 4 October 2022.