ELEC-C7110 - Informaatioteknologian perusteet, 12.01.2021-14.04.2021
This course space end date is set to 14.04.2021 Search Courses: ELEC-C7110
Esitehtävä 10.3. Puheteknologia
Tehtävä 1.
Tehtävänäsi on nauhoittaa omaa ääntäsi ja piirtää tämän signaalin spektri ja spektrogrammi. Tähän sopivia ohjelmia on paljon, mutta suosittelemme ilmaista Audacity-äänieditoria (https://www.audacityteam.org/). Sen voi helposti asentaa omalle koneelle ja se löytyy myös Aallon tietokoneista. Mikäli omassa koneessasi ei ole omaa mikrofonia (kuten webbi-kameraa), voit myös nauhoittaa ääntä puhelimellasi (Android-puhelimissa esim. "Android Recorder", iOS-puhelimissa esim. puhelimen mukana tuleva "Sanelin").
Ohjeet Audacity-ohjelmassa:
- Nauhoita ääntä painamalla "Record" nappia (punainen ympyrä) ja pysäytä "Stop" napista (musta ruutu). Voit itse valita lauseen, mutta jos ei tule mitään mieleen niin sopiva lause voi olla esimerkiksi "Aalto-yliopiston kurssi: Informaatioteknologian perusteet."
- Mikäli ruudulle ilmestyi kaksi aaltomuotoa (stereoääni), niin valitse "Tracks" -> "Mix" -> "Mix Stereo Down to Mono". Mikäli sinulla on vain yksi aaltomuoto, voit edetä suoraan seuraavaan kohtaan.
- Spektrogrammin saat esille seuraavasti: Aalto-muodon sisältävän ikkunan vasemmassa ylälaidassa on menu "Audio Track", valitse sieltä "Spectrogram".
- Spektrogrammin asetukset saa esille samasta paikasta: Aalto-muodon sisältävän ikkunan vasemmassa ylälaidassa on menu "Audio Track", valitse sieltä "Spectrogram settings". Ikkunan pituus valitaan siellä seuraavasti; ikkunan pituus = 0.03 * Fs, missä Fs on näyttäistystaajuus. Eli esimerkiksi näytteistystaajuudella Fs=44.1kHz (oletus), on sopivasti pyöristettynä ikkunan pituus 1024.
- Valitse maalaamalla lauseestasi pitkä vokaali, esim. sanasta "Aalto" kaksi ensimmäistä A-vokaalia. Analysoi pätkän spektri valitsemalla valikosta "Analyze" -> "Plot spectrum". Käytä analyysissä ikkunan pituutena samaa kuin edellä (oletus: 1024 näytettä).
Tehtävä 2.
Kokeile jotakin puheentunnistinta haluamallasi kielellä. Kokeile puheen
tunnistinta yhdellä lauseella. Käytä testissä sen verran monimutkaista
lausetta, että puheen tunnistin ei tunnista lausetta täydellisesti.
Palauta puhumasi lause ja puheentunnistimen tuottama lause. Merkitse
virheelliset sanat alleviivaamalla ja kirjaa virhetyyppi sanan
yläpuolelle tai perään suluissa kirjaimella S, D tai I.
S = Substitutions (korvatut sanat)
D = Deletions (hävinneet sanat)
I = Insertions (ylimääräiset sanat)
Mikä tahansa löytämäsi tunnistin kelpaa. Esimerkiksi älypuhelimissa on
nykyisin varsin toimivia puheentunnistimia jo valmiina integroituna
näppäimistöön. Tämän tehtävänannon lopusta löytyy lisäksi lista
muutamista tunnistimista. Voit kokeilla tunnistimia joko mikrofonin
avulla tai lataamalla tunnistimeen äänitiedoston.
Netistä löytyviä tunnistimia:
Seuraavien linkkien takaa löytyy Google Chromessa mikrofonilla toimivia tunnistimia usealla eri kielellä.
Mukana myös suomenkielinen tunnistin:
https://www.google.com/intl/en/chrome/demos/speech.html
http://ctrlq.org/dictation (nuuskii kieliasetukset Chromesta)
https://speechnotes.co/