Lingua Libre als hulp bij Franse uitspraak

Lingua Libre is een website van Wikimédia France en helpt bij de uitspraak van woorden.

Lingua Libre, waartoe dient het?

Weet je hoe je in het Frans L’Haÿ-les-Roses of Moon-sur-Elle uitspreekt? Antwoord: /laj lɛ ʁoz/ en /mɔ̃ syʁ‿ɛl/. Maar misschien kun je het internationale fonetische alfabet niet lezen? Geen erg, daarom is er Lingua Libre. Met deze tool kun je een lijst woorden importeren die je kunt opnemen, ze vervolgens een voor een uitspreken (de software zorgt ervoor dat er naar het volgende woord wordt gegaan zodra er een pauze volgt) en zodra de opname klaar is, worden alle bestanden automatisch naar Wikimedia Commons verzonden, waar ze zo veel mogelijk worden hergebruikt. Via de Lingua Libre Bot kunnen gebruikers automatisch nieuwe uitspraken toevoegen. De bot is ook actief op Wikidata om deze uitspraken toe te voegen aan de lexicografische gegevens.

Taalkundige diversiteit

Iets moeilijkers nu. Hoe spreek je in het Frans Bruxelles uit: /bʁy.sɛl/ of /bʁyk.sɛl/? Je hoort beide, maar puristen verkiezen de eerste uitspraak. Hetzelfde geldt voor Chamonix, Metz, enz. Lingua Libre wil de taalkundige diversiteit van de Franse taal weergeven via de manier waarop woorden worden uitgesproken. En, inderdaad! Het Parijse accent is maar één van de vele accenten. Het is dus interessant om van hetzelfde woord opnamen te hebben uit het noorden, het oosten en ook het zuidwesten van Frankrijk, België, Zwitserland, Québec, Kameroen, Ivoorkust enz. Ze praten daar ook Frans, maar niet op dezelfde manier.

Andere talen

Hoewel het project oorspronkelijk van Wikimédia France uitgaat, kent het een internationaal bereik, zoals alle sites van Wikimedia (Wikipedia, Wiktionnaire, Wikisource, Wikidata, enz.). Zo kunnen ook woorden in andere talen en dialecten worden opgenomen en geregistreerd via Lingua Libre. Er is zelfs in voorzien om woorden in verschillende gebarentalen op te nemen via de webcam.

Enkele statistieken

Aangezien er gebruik wordt gemaakt van Wikibase om de opnamen op te slaan, kunnen heel wat statistieken worden opgehaald. Daaruit blijkt dat er sinds februari 2021 meer dan 400.000 opnamen zijn, amper 2,5 jaar na de start van de site (augustus 2018). Deze opnamen zijn verricht in 115 talen door iets meer dan 500 mensen. Tegen juli 2021 verwacht men 500.000 opnamen.

De meerderheid van de opnamen zijn in het Frans (iets minder dan 200.000), gevolgd door Bengali (~ 50.000), Esperanto (~ 30.000), Pools (~ 25.000), Oekraïens (~ 18.000), Engels, Occitaans, Duits, Marathi en Roemeens.

Een beetje geschiedenis

De eerste versie van Lingua Libre zag het licht in 2016. Ze werd ontwikkeld door Nicolas Vion, die eerder al Shtooka had ontwikkeld. Shtooka is (was?) een soortgelijk opnameproject met opnamen onder vrije licentie. Vóór de komst van Lingua Libre stond een groot deel van de met Shtooka gemaakte audio-opnamen al op Wiktionnaire.

Een tweede versie van Lingua Libre kwam uit in de zomer van 2018. Hierbij werd de site in een nieuw kleedje gestoken. Ze is voortaan gebaseerd op MediaWiki met een geïntegreerde Wikibase waarin metagegevens aan alle opnamen kunnen worden toegevoegd. Daarnaast wordt er naar de site gelinkt vanaf de andere Wikimedia-projecten (Wiktionnaire, Wikipedia, Wikidata, enz.). Deze tweede versie is het werk van Wikimedia-gebruiker 0x010C.

In maart 2021 had de site te lijden onder de brand in de datacenters van de Franse provider OVH. De site kwam pas op 22 april, anderhalve maand na de brand, opnieuw online. Geen enkel gegeven (opnamen, internetpagina’s enz.) ging verloren.

Soortgelijke initiatieven

  • Shtooka is de eerste site voor opnamen van uitspraken. Alle inhoud is beschikbaar onder vrije licentie. Zoals eerder vermeld, gaat het om de voorganger van Lingua Libre.
  • Forvo is mogelijk de bekendste soortgelijke site. Deze site heeft een beter ontwerp maar gebruikt geen vrije licentie.
  • Lingopolo is een site om talen te leren via audio-opnamen. Het is dus geen zuivere opnamesite maar een site die audio-opnamen gebruikt. De gegevens zijn niet vrij (CC by-nc-sa).
  • Common Voice is een initiatief van Mozilla dat een immense databank aan stemopnamen bevat die iedereen eenvoudig en snel kan gebruiken voor toepassingen met spraak, in alle talen. De gegevens van Common Voice zijn beschikbaar onder de licentie CC0.

Enkele technische gegevens

Les différentes requêtes web dans l’infrastructure de Lingua Libre

De site is gebaseerd op MediaWiki. De opnamen worden gemaakt met een speciaal voor Lingua Libre ontwikkelde extensie van Mediawiki: RecordWizard.

Je hebt een Wikimedia-account nodig om een bijdrage te kunnen leveren aan Lingua Libre. Er wordt dan een verbinding gemaakt via de extensie OAuth. Je kunt ook een bijdrage leveren door de account van een andere gebruiker te ‘gebruiken’. Aan de start van het project bedacht men dat het maken van een account een rem kon betekenen voor het sturen van een bijdrage. Zo kan een geregistreerde gebruiker meerdere sprekers aanmaken voor eenzelfde Wikimédia-account. Zo kun je in een afgelegen dorp komen en mensen registreren die met informatica vertrouwd zijn; ze hoeven maar de woorden een voor een uit te spreken. Op Wikimedia Commons zijn de verschillende sprekers zichtbaar in de naam van het bestand (voorbeeld).

Zodra de reeks woorden opgenomen is, wordt voor elke uitspraak een item aangemaakt in Wikibase. De opnamen worden overigens automatisch naar Wikimedia Commons gestuurd zodat ze daar kunnen worden hergebruikt. Een robot, LinguaLibreBot, plaatst vervolgens de nieuw aangemaakte audiobestanden op de Franstalige Wiktionnaire en op de lexemen van Wikidata. Andere Wikimedia-sites volgen in de toekomst.

Hoe kan ik bijdragen?

Zoals bij alle gratis projecten kun je op verschillende manieren bijdragen aan Lingua Libre.

Uitspraken opnemen

Iedereen kan reeksen woorden opnemen om zijn of haar accent aan de databank toe te voegen. Er is geen ‘goede’ uitspraak, dus alle uitspraken zijn welkom. De personen die je opnamen hergebruiken, maken een selectie op basis van hun criteria.

Pagina’s vertalen

De site Lingua Libre is een wiki. Omdat die voor iedereen beschikbaar moet zijn, kunnen alle pagina’s van de site worden vertaald. Als je dus merkt dat een pagina niet vertaald is in jouw taal, aarzel dan niet om een handje te helpen.

Merk op dat de inhoud van de eigenschappen van de Wikibase ook kan worden vertaald.

Hulppagina’s schrijven

Zoals bij vele andere gratis projecten, is documentatie de zwakke plek van Lingua Libre, ook al worden er in die zin inspanningen geleverd. Als je dus wil bijdragen door hulppagina’s te schrijven of te verbeteren, dan word je met open armen ontvangen.

Bugs oplossen en functies toevoegen

Oorspronkelijk werd de site ontwikkeld door één enkele ontwikkelaar. De site wordt op dit ogenblik onderhouden door een dienstverlenende onderneming, gefinancierd door Wikimédia France. Op termijn moet Lingua Libre onderhouden worden door een kern van enkele capabele ontwikkelaars die snel kleine fouten kunnen wegwerken. De ingewikkeldste bugs kunnen door Wikimédia France worden opgelost.

De hele code is zichtbaar op Github. De push requests worden regelmatig nagekeken en toegepast door de systeembeheerder en netwerken van Wikimédia France. Wil je een handje helpen op technisch vlak, dan kan dat hier.

De toekomst?

Lingua Libre is een nog jonge site maar is volledig functioneel. De toekomst van de site hangt enerzijds af van de financiële steun van Wikimédia France en anderzijds van het feit of er voldoende mensen zijn die uitspraken invoeren en de site technisch onderhouden. Op dit ogenblik bestaat deze gemeenschap vooral uit bijdragers uit Frankrijk en enkele mensen uit India. De gemeenschap internationaler maken is dan ook een grote uitdaging om ervoor te zorgen dat de opgenomen woorden diverser zijn dan ooit.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.