# Pr√©traitement du son

Comment convertir du son en features ? That is the question.


## Cr√©ation d'un WAV

In [16]:
import os

audio_path = "images/output.wav"
if not os.path.exists(audio_path):
    import sounddevice as sd
    from scipy.io.wavfile import write
    import numpy as np

    # Param√®tres d'enregistrement
    samplerate = 16000  # 16kHz (standard pour ML et ASR)
    duration = 5  # Dur√©e de l'enregistrement en secondes

    print("üé§ Enregistrement en cours...")
    audio = sd.rec(
        int(samplerate * duration), samplerate=samplerate, channels=1, dtype=np.int16
    )
    sd.wait()  # Attendre la fin de l'enregistrement

    # Sauvegarder en fichier .wav

    write(audio_path, samplerate, audio)
    print("done")
else:
    print("done already")

done already


## librosa

[librosa](https://librosa.org/doc/latest/index.html) : le son est de longueur variable et il faut construire un vecteur de taille finie afin de pouvoir l'utiliser avec un pr√©dicteur. On d√©coupe le signal, on estime des features, puis on aggr√®ge d'une fa√ßon ou d'une autre.

In [17]:
import librosa
import numpy as np

# Charger un fichier audio
print(f"chargement du fichier: {audio_path!r}")
y, sr = librosa.load(
    audio_path, sr=None
)  # sr=None garde le taux d'√©chantillonnage original

# Extraction des caract√©ristiques audio (MFCCs)
print(f"features: {audio_path!r}")
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfccs.shape

chargement du fichier: 'images/output.wav'
features: 'images/output.wav'


(13, 157)

In [18]:
mfccs = np.mean(mfccs, axis=1)
mfccs.shape

(13,)

## Pr√©traitement avanc√© ou transfer learning

Cette m√©thode s'apparente √† une [transfer learning](https://en.wikipedia.org/wiki/Transfer_learning). Quand on dispose de peu de donn√©es, il est difficile d'apprendre un mod√®le performant sur des donn√©es complexes type image ou son. En revanche, on peut utiliser la sortie d'un mod√®le appris sur des grandes quantit√© de donn√©es et les utiliser comme feature. On parle d' *embedding*.

Le package [transformers](https://huggingface.co/docs/transformers/en/index) offre plein de mod√®le de traitement de son, reconnaissance de la parole et autres traitements, il faut choisir un mod√®le qui s'approche de la t√¢che √† r√©aliser par la suite. L'exemple suivant consid√®re un petit mod√®le [distil-wav2vec2](https://huggingface.co/OthmaneJ/distil-wav2vec2) et transcrit le son en mots. Ce n'est pas le plus performant car c'est un petit mod√®le. On peut utiliser comme features la sortie du pr√©processeur, celle du mod√®le... Tout d√©pend de ce qui suit.

In [49]:
import torch
import librosa
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Charger le mod√®le et le processeur
model_name = "openai/whisper-tiny"
print(f"t√©l√©chargement du preprocesseur {model_name!r}")
processor = WhisperProcessor.from_pretrained(model_name)
print(f"t√©l√©chargement du mod√®le {model_name!r}")
model = WhisperForConditionalGeneration.from_pretrained(model_name)
print(f"chargement du fichier audio {audio_path!r}")
y, sr = librosa.load(
    audio_path, sr=16000
)  # wav2vec2 attend un √©chantillonnage de 16kHz

# Transformer en tenseur
input_features = processor(y, sampling_rate=16000, return_tensors="pt").input_features
input_features.shape, input_features.dtype

t√©l√©chargement du preprocesseur 'openai/whisper-tiny'
t√©l√©chargement du mod√®le 'openai/whisper-tiny'
chargement du fichier audio 'images/output.wav'


(torch.Size([1, 80, 3000]), torch.float32)

In [50]:
predicted_ids = model.generate(input_features)
predicted_ids.shape, predicted_ids.dtype

(torch.Size([1, 14]), torch.int64)

In [47]:
# D√©coder le texte
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print("Texte reconnu :", transcription)

Texte reconnu :  cr√©ation l'infiche-roix avec p'ton.


Pour avoir des features r√©els, on peut aussi appeler le mod√®le une seule fois mais le mod√®le n'aura peut-√™tre trait√© toute la s√©quence. Il faut comprendre le mod√®le avant d'utiliser ce code.

In [55]:
new_features = model(
    input_features=input_features,
    decoder_input_ids=torch.tensor([[50258]], dtype=torch.int64),
)
new_features.logits.shape, new_features.logits.dtype

(torch.Size([1, 1, 51865]), torch.float32)