Ist die Vogelstimmen-Erkennung in OpenInsect wirklich kostenlos?

Ja. Die App ist im Apple App Store und bei Google Play kostenlos. Audio-Aufnahmen, Foto- und Video-Bestimmung sowie die KI-Auswertung samt Spektrogramm sind ohne Gebühr nutzbar. Es gibt keine Abo-Pflicht und keine versteckten Kosten für die Erkennung.

Wie genau ist die KI bei Vogelstimmen?

Bei klaren Aufnahmen typischer heimischer Singvögel ohne starken Störlärm erreicht das Modell sehr hohe Trefferquoten. Die App zeigt zusätzlich einen Konfidenz-Score und alternative Kandidaten an. Bei Wind, Verkehrslärm oder ähnlich klingenden Arten kann sich die KI irren – mehrere Aufnahmen helfen.

Funktioniert die App auch für Eulen, Frösche oder Insekten?

Ja. Eulenrufe, Froschchorgesang, Grillenzirpen und Zikaden werden von OpenInsect mit erfasst. Die Genauigkeit ist etwas niedriger als bei klassischen Singvögeln, weil die Datengrundlage kleiner ist.

Werden meine Aufnahmen weiterverwendet?

Aufnahmen werden für die KI-Auswertung verarbeitet und im Community-Feed angezeigt, wenn Sie den Beitrag öffentlich machen. Sie können Beiträge auch privat speichern. Details in der Datenschutzerklärung in der App.

Kann ich Vogelstimmen auch ohne Internet erkennen lassen?

Aktuell benötigt die KI-Auswertung eine Internetverbindung. Sie können Aufnahmen offline machen und später hochladen, sobald Sie wieder Empfang haben.

Reconnaître les bruits d'oiseaux gratuitement en ligne et avec une app

Reconnaître les bruits d'oiseaux gratuitement en ligne et avec une application : c'est désormais possible en quelques secondes. Avec notre application OpenInsect, vous enregistrez simplement le chant ou l'appel d'un oiseau avec le microphone de votre smartphone, et une IA bioacoustique détermine l'espèce - gratuitement, sans enregistrement, avec une logique régionale prise en charge par GPS et un spectrogramme d'aspect scientifique pour chaque coup.

Dans ce guide, nous allons vous montrer comment fonctionne la reconnaissance des chants d'oiseaux dans OpenInsect, quelles espèces d'oiseaux sont identifiées de manière fiable, comment obtenir les enregistrements les plus propres possibles et comment l'application se compare à BirdNET, Merlin Bird ID ou Naturblick.

Reconnaissez les bruits d'oiseaux avec votre smartphone - plus rapidement que de les rechercher

Auparavant, quiconque souhaitait identifier un chant d'oiseau inconnu avait deux options : un épais livre d'identification ou le souvenir du dernier cours d'ornithologie. Aujourd’hui, un smartphone suffit. Chant d'oiseau, appel d'oiseau ou voix d'oiseau : les modèles d'IA pour la bioacoustique reconnaissent de manière fiable les modèles de fréquence typiques, la structure des syllabes et le rythme d'un appel en quelques secondes seulement.

OpenInsect s'appuie sur un pipeline d'IA spécialement développé avec une couche d'analyse entraînée sur les sons d'animaux. Ainsi, vous n'avez pas besoin d'identifier les espèces d'oiseaux, il vous suffit de diriger le microphone vers la forêt, le jardin ou le parc et quelques secondes plus tard, vous verrez les espèces les plus probables - y compris un score de confiance, une plausibilité régionale et une visualisation professionnelle de l'enregistrement.

Voici comment fonctionne la reconnaissance des chants d'oiseaux dans l'application OpenInsect

La fonction audio fait partie de l'application gratuite OpenInsect pour iOS et Android. Vous installez l'application, ouvrez la page d'enregistrement et suivez trois courtes étapes :

Étape 1 – Ouvrir le microphone

Sur la page d'enregistrement, vous trouverez un bouton de microphone à côté de la photo et de la vidéo. Lorsque vous appuyez, l'enregistreur audio s'ouvre avec une forme d'onde en direct qui affiche votre volume d'entrée en temps réel. De cette façon, vous pouvez voir immédiatement si l'oiseau est assez bruyant ou si le vent et le bruit de la rue dominent le signal.

Étape 2 – Enregistrez jusqu'à 60 secondes

L'application vous permet d'enregistrer jusqu'à 60 secondes d'audio. Cela suffit pour plusieurs couplets ou une boucle vocale complète. Arrêtez l'enregistrement manuellement ou arrêtez-le automatiquement après 60 secondes. Les coordonnées GPS sont - si vous l'avez autorisé au début - automatiquement enregistrées afin que le modèle préfère les espèces plausibles au niveau régional.

Étape 3 – Analyse IA et spectrogramme

Une fois téléchargé, le fichier audio est envoyé sur notre serveur. Là, un spectrogramme avec un axe de fréquence d'environ 1 à 12 kHz et une forme d'onde nettoyée sont générés en parallèle. Les deux apparaissent dans votre message avec le résultat de l'IA : le résultat semble provenir d'un outil scientifique et peut être partagé sous forme d'image haute résolution.

Le spectrogramme et la forme d'onde sont générés côté serveur pour chaque enregistrement - avec un axe de fréquence et un axe de temps comme un programme ornithologique.

Ce que l'application peut faire

OpenInsect n'est pas seulement une application de chant d'oiseaux, mais une plateforme d'identification combinée pour photo, vidéo et audio. Le tableau suivant indique le mode qui donne les meilleurs résultats :

Mode À quoi convient-il Précision Photo Oiseaux assis, insectes, plantes, champignons, moisissures, arbres très élevé avec une bonne exposition Vidéo Modèle de mouvement, modèle de vol, comportement élevé – plusieurs images sont évaluées Audio Chants d'oiseaux, cris de chouettes, pics, grenouilles, grillons, cigales meilleur chez les oiseaux (domaine bioacoustique classique)

Il existe également des fonctions communautaires : un système de points pour chaque téléchargement réussi, un système de séquences pour un suivi régulier, un flux avec toutes les observations publiques et la possibilité de suivre d'autres utilisateurs ou de commenter les publications.

Quelles espèces d'oiseaux OpenInsect reconnaît-il ?

L'IA est entraînée sur les oiseaux chanteurs domestiques les plus courants d'Europe centrale, mais connaît également de nombreuses autres espèces. La sélection suivante montre ce qui est reconnu de manière fiable :

Merle noir, grive musicienne, grive des brumes, Fieldfare
Mésange charbonnière, mésange bleue, mésange charbonnière, mésange huppée, mésange des marais
Pinson, Ronces, Verdier, Chardonneret, Tarin, Girlitz
Robin, rouge-queue noir, rouge-queue, rossignol
Troglomérat, dunnock, à tête noire, serpent à sonnette, paruline des jardins, gorge blanche
Chiffchaff, Fitis, Paruline des bois, Paruline des marais, Paruline des roseaux
Étourneau sansonnet, loriot, gros-bec, bouvreuil, marteau jaune, bruant des roseaux
Sitelle, grimpereau, grimpereau forestier
Pic épeiche, pic vert, pic épeiche, pic noir
Coucou, tordu, martinet, hirondelle rustique et martin domestique
Pigeon ramier, pigeon turc, pigeon de stock
Chouettes : Chouette hulotte, Petite Chouette, Effraie des clochers, Grand-duc
Oiseaux de proie : buse variable, crécerelle, faucon, épervier

Les grenouilles (rainettes arboricoles, rainettes des étangs, grenouilles herbivores), les grillons (grillons des champs, grillons domestiques), les sauterelles et les cigales sont également reconnus dans de nombreux cas. Cependant, le modèle atteint le taux de réussite le plus élevé chez les oiseaux - c'est là que la classification bioacoustique est la mieux couverte scientifiquement.

Conseils pour de bons clichés

Même la meilleure IA est aussi bonne que le signal d'entrée. Avec ces conseils, vous augmenterez sensiblement le taux de réussite :

Réduire le vent : tenez le microphone derrière une partie du corps ou une veste pour bloquer le vent direct. Si le vent est fort, il vaut mieux attendre une pause.
La proximité aide, tout comme le silence : Plus l'oiseau est proche, mieux c'est - mais pas au point qu'il s'envole. Un environnement calme est plus important qu'une distance parfaite.
Évitez les autres bruits : Les conversations, la circulation, les aboiements de chiens ou les tondeuses à gazon perturbent le modèle. Dans les parcs, il est préférable d'enregistrer le matin avant le bruit habituel.
Enregistrez plusieurs vers : Une seule syllabe suffit rarement. Deux à trois couplets chantés ou séquences d'appel donnent au modèle suffisamment de matière.
Tenez correctement votre smartphone : Alignez le microphone avec la source sonore - sur les téléphones portables modernes, souvent au bord inférieur du boîtier. Ne couvrez pas avec votre main.
Utilisez la qualité d'origine : désactivez les appels téléphoniques pendant l'enregistrement ou les casques Bluetooth : le microphone interne du smartphone fournit le meilleur signal.

Comparaison : OpenInsect, BirdNET et Merlin Bird ID

Il existe plusieurs applications bien connues pour la reconnaissance des chants d'oiseaux. Voici une comparaison honnête :

Fonctionnalité OuvrirInsect BirdNET (Cornell) Identifiant d'oiseau Merlin Vue sur la nature Détection audio Oui, jusqu'à 60 s Oui Oui, en direct Oui Reconnaissance de photos Oui Non Oui Oui (focus sur les plantes) Détection vidéo Oui Non Non Non Autres animaux (grenouilles, insectes) Oui Non Non Partiel Visualisation du spectrogramme Oui, dans le message Oui Oui Non Flux et points communautaires Oui Non Non Interdit Langue Allemand (première classe) Anglais primaire Multilingue Allemand Coûts Gratuit Gratuit Gratuit Gratuit

En bref : BirdNET et Merlin sont d'excellentes applications réservées aux oiseaux, avec des années de recherche derrière elles. OpenInsect prend tout son sens lorsque vous souhaitez non seulement identifier les oiseaux, mais également combiner des photos, des vidéos et de l'audio dans une seule application - comprenant dès le départ un flux communautaire, des points et une interface en allemand.

Alternative en ligne sans application

Vous pouvez également télécharger des photos d'oiseaux sans application directement sur notre site Web sur Identification des oiseaux avec photo en ligne et les faire identifier en quelques secondes - sans aucune installation.

Pour les enregistrements audio des cris d'oiseaux, vous avez actuellement besoin de l'application OpenInsect : l'accès au microphone, l'enregistrement GPS et la création de spectrogrammes côté serveur sont étroitement liés à l'application. Un enregistrement du site Web sur navigateur uniquement est en préparation.

Questions fréquemment posées

La reconnaissance des chants d'oiseaux dans OpenInsect est-elle vraiment gratuite ?

Oui. L'application est gratuite sur l'Apple App Store et Google Play. Les enregistrements audio, la détermination photo et vidéo ainsi que l'évaluation IA, y compris le spectrogramme, peuvent être utilisés gratuitement. Il n'y a aucune condition d'abonnement ni aucun coût caché pour la détection.

Quelle est la précision de l'IA avec les cris d'oiseaux ?

Avec des enregistrements clairs d'oiseaux chanteurs domestiques typiques sans bruit gênant fort, le modèle atteint des taux de réussite très élevés. L'application affiche également un score de confiance et des candidats alternatifs afin que vous puissiez évaluer vous-même le résultat. L'IA peut se tromper en ce qui concerne le vent, le bruit de la circulation ou des sons similaires - plusieurs enregistrements sont utiles.

L'application fonctionne-t-elle également pour les hiboux, les grenouilles ou les insectes ?

Oui. Les cris de hibou, le chant des grenouilles, le gazouillis des grillons et les cigales sont enregistrés par OpenInsect. La précision y est légèrement inférieure à celle des oiseaux chanteurs classiques, car la base de données scientifiques sur ces groupes est plus petite. Cependant, les résultats sont généralement solides pour les appels typiques des jardins et des forêts de la faune locale.

Mes enregistrements seront-ils réutilisés ?

Les enregistrements sont traités pour l'évaluation de l'IA et affichés dans le fil de la communauté lorsque vous rendez la publication publique. Vous pouvez également enregistrer les publications en privé. Les détails sur l'utilisation des données peuvent être trouvés dans la déclaration de protection des données dans l'application.

Puis-je reconnaître les chants d'oiseaux sans Internet ?

L'évaluation de l'IA nécessite actuellement une connexion Internet car l'analyse s'exécute sur le serveur - cela la rend très précise et économise la batterie de votre smartphone. Cependant, vous pouvez mettre les enregistrements hors ligne et les télécharger plus tard dès que vous avez à nouveau la réception.

Voici comment fonctionne scientifiquement la reconnaissance des chants d'oiseaux basée sur l'IA

Derrière chaque hit de l'application OpenInsect se cache tout un pipeline de traitement du signal classique et de reconnaissance de formes moderne. Le chemin depuis le signal brut du microphone de votre smartphone jusqu'au nom de l'espèce peut être décomposé en quatre étapes : l'enregistrement, la décomposition temps-fréquence, l'extraction des caractéristiques et la classification. Une fois que vous aurez compris ce qui se passe à chaque étape, vous verrez alors un spectrogramme avec des yeux différents.

Étape 1 – De la pression acoustique aux séries chronologiques

Le microphone du smartphone convertit les fluctuations de la pression atmosphérique en une séquence numérique de nombres, généralement avec une fréquence d'échantillonnage de 44,1 ou 48 kHz. Cependant, un taux nettement inférieur est suffisant pour le chant des oiseaux : selon Abeßer et al., la principale gamme d'énergie des oiseaux chanteurs domestiques est. (DEGA Akustik Journal 03/2025) entre 2 et 8 kHz - les éléments de trilles individuels atteignent des taux de répétition allant jusqu'à 48 Hz. À une fréquence d'échantillonnage de 24 kHz, le théorème de Nyquist (f_max = f_s/2) couvre toute la plage de fréquences pertinente jusqu'à 12 kHz. Des taux d'échantillonnage plus élevés sont techniquement possibles, mais fournissent peu d'informations supplémentaires pour l'identification pure des espèces et génèrent des fichiers inutilement volumineux.

Étape 2 – Spectrogramme via transformation de Fourier à court terme

Pour que l'IA puisse « voir » non seulement le volume mais également les progressions de hauteur, le signal audio est converti en spectrogramme. Mathématiquement, cela se produit via la transformée de Fourier à court terme (STFT) :

X(τ, f) = ∫ x(t) · w(t − τ) · e^−j2πft dt

Ici, x(t) est le signal audio en temps continu, w(t − τ) est une fonction de fenêtre (généralement Hann ou Hamming) centrée au moment τ, et X(τ, f) fournit l'amplitude complexe à la fréquence f. Le spectrogramme est alors |X(τ, f)|².

Frommolt et coll. (Vogelwarte 50, 2012) décrivent le calcul du spectrogramme basé sur la FFT comme l'outil standard pour la reconnaissance de formes bioacoustiques : les spectrogrammes calculés ne sont rien d'autre que des matrices de valeurs d'amplitude dans les dimensions temporelles et fréquentielles. Tous les algorithmes ultérieurs fonctionnent sur cette représentation matricielle.

Trois paramètres déterminent la qualité du spectrogramme :

Taille de la fenêtre (longueur FFT) : généralement 512 à 2 048 échantillons. Les fenêtres plus grandes donnent une meilleure résolution en fréquence, les plus petites donnent une meilleure résolution temporelle – un compromis classique qu'Abeßer et al. (2025) le décrivent explicitement comme un « bon équilibre entre la résolution temporelle et fréquentielle ».
Fonction fenêtre : Hamming ou Hann réduisent la fuite spectrale au niveau des bords de la fenêtre.
Taille du saut : décalage temporel entre des fenêtres consécutives, généralement de 25 à 50 % de la taille de la fenêtre. Des tailles de sauts plus petites fournissent des spectrogrammes plus fluides, mais coûtent du temps de calcul.

Étape 3 – Échelle de Mel et MFCC

Les axes de fréquence linéaires ne sont pas naturels pour l'audition humaine, mais aussi aviaire. Les deux systèmes auditifs résolvent les basses fréquences plus finement que les hautes. L'échelle de Mel représente mathématiquement cette perception :

m = 2595 · log₁₀(1 + f/700)

À partir de là, les coefficients cepstraux de fréquence Mel (MFCC) sont calculés - à l'origine adoptés à partir de la reconnaissance vocale, désormais également standard en bioacoustique. Krüger (HfM Weimar, WiSe 22/23) utilise 13 MFCC comme vecteur de caractéristiques dans son étude sur la reconnaissance automatique des chants d'oiseaux et constate que l'augmenter à 20 n'a plus d'effet significatif sur le taux de réussite - une indication utile pour le dimensionnement de modèles minces.

Abeßer et al. (DEGA 2025) soulignent que les MFCC « capturent les propriétés spectrales d'un signal audio dans une plage de fréquences audibles par l'homme » et sont donc particulièrement efficaces pour les sons tonals d'animaux, tandis que de simples caractéristiques temporelles telles que l'énergie à court terme ou le taux de passage à zéro restent inadéquates dans les scènes sonores complexes.

Étape 4 – Classification : du CNN au modèle Foundation

Au niveau de la reconnaissance des formes, trois générations se sont succédées au cours des dix dernières années :

Les algorithmes classiques tels que la corrélation de spectrogramme (Frommolt et al. 2012, voir la bibliographie pour la formule) comparent les enregistrements inconnus avec des modèles de référence. Des spectrogrammes identiques donnent un coefficient de corrélation de 1 ; plus la valeur est élevée, plus les appels sont similaires. Des modèles de Markov cachés (HMM) et des forêts aléatoires ont également été utilisés.
Les réseaux de neurones convolutifs (CNN), en particulier BirdNET de l'Université Cornell, traitent le spectrogramme comme une image et apprennent hiérarchiquement des modèles temps-fréquence de plus en plus complexes : d'abord des structures horizontales (harmoniques) et verticales (transitoires), puis des motifs d'appel complets. Abeßer et al. (2025) décrivent cette formation de caractéristiques hiérarchiques comme l'approche dominante aujourd'hui.
Les modèles Transformer et Foundation utilisent l'auto-attention et peuvent capturer des dépendances temporelles plus longues. Les modèles audio-vocaux actuels tels que NatureLM-Audio sont spécialement développés pour l'analyse des sons d'animaux et, selon l'aperçu de la DEGA, peuvent même classer les espèces rares ou menacées.

État de la recherche – en termes de précision et de limites

Trois articles donnent un bon aperçu de l'état actuel des connaissances en matière de reconnaissance automatique des chants d'oiseaux. Nous paraphrasons les déclarations centrales en faisant référence à la source :

Frommolt et al., Vogelwarte 50 (2012) – la base méthodologique

L'article de synthèse "Méthodes automatisées d'enregistrement d'appels et de chansons" est à ce jour l'une des références germanophones les plus citées sur le sujet. Trois résultats sont particulièrement pertinents pour la pratique :

Avec des microphones sensibles, un enregistrement sonore atteint la même portée que l'audition humaine : étude comparative réalisée par Hobson et al. (2002) dans la forêt boréale mixte ont trouvé une concordance de 83 à 97 % entre les déterminations sur le terrain et les enregistrements.
La corrélation des spectrogrammes fonctionne très bien avec des cris clairement structurés : pour la paruline roseau (Locustella luscinioides), la méthode a atteint un taux de détection de 92 % avec seulement 1,2 % d'interprétations erronées (Bardeli et al. 2010, cité dans l'aperçu de l'observatoire des oiseaux).
Dans le cas d'appels fortement superposés de plusieurs espèces, les taux de réussite chutent considérablement : Buxton & Jones (2012) ne signalent que 10 % d'appels reconnus dans de telles situations de polyphonie. C'est la raison scientifique qui explique pourquoi un environnement d'enregistrement silencieux est si important.

Krüger, HfM Weimar (hiver 22/23) – l'exemple pratique

Sophie Krüger documente dans son travail de projet "Reconnaissance automatique du chant des oiseaux" la construction d'un détecteur complet de chants d'oiseaux basé sur le DCASE "Audio d'oiseau". Ensemble de données "Détection Challenge". Trois résultats sont instructifs pour le développement de notre application :

Avec 13 MFCC comme fonctionnalités et un classificateur de forêt aléatoire, un modèle simple atteint un taux de réussite d'environ 75 % avec 200 fichiers d'entraînement, soit bien au-dessus de la base de référence aléatoire de 50 % d'une classification binaire, mais encore trop faible pour une utilisation pratique.
L'augmentation de l'ensemble de données à 500 ou 1 000 fichiers n'a pas automatiquement conduit à une meilleure reconnaissance dans cette étude : cela indique que la qualité et la diversité des données d'entraînement sont plus importantes que la quantité pure.
L'auteur conclut explicitement en recommandant que les informations résolues dans le temps du spectrogramme Mel (au lieu des MFCC moyennés dans le temps) devraient améliorer encore le taux de réussite - exactement le chemin emprunté par les CNN et les modèles Foundation modernes.

Abeßer, Lukashevich, Ziegler & Bös, DEGA Akustik Journal 03/2025

L'article de synthèse "Avances dans la reconnaissance automatique des chants d'oiseaux" de Fraunhofer IDMT résume l'état de l'art en 2025 :

Le chant des oiseaux s'entend acoustiquement dans la plage de fréquences 2 à 8 kHz. Les éléments de trilles d'espèces individuelles atteignent des taux de répétition allant jusqu'à 48 Hz - les méthodes traditionnelles de traitement du signal atteignent ici leurs limites.
La normalisation de l'énergie par canal (PCEN) s'est imposée comme un post-traitement efficace du spectrogramme : elle filtre le bruit du vent en dessous de 500 Hz, équilibre la répartition de l'énergie sur la plage de fréquences et met l'accent sur les contours de fréquence pertinents pour la détection.
Selon la Liste rouge de l'UICN 2025, 12 % de toutes les espèces d'oiseaux dans le monde sont en voie de disparition ou menacées d'extinction. La surveillance bioacoustique automatisée (Passive Acoustic Monitoring, PAM) n'est donc plus un outil utile, mais un outil central dans la recherche sur la conservation de la nature.
Les ensembles de données de recherche actuels tels que BirdSet (plus de 6 800 heures d'audio, près de 10 000 cours) et Xeno-Canto (plus de 450 000 enregistrements, plus de 10 000 espèces d'oiseaux) constituent la base de formation des modèles modernes.

Hübner, Université de Potsdam (2006/2008) – le forage profond méthodique

Dissertation de Sebastian Hübner "Modélisation basée sur la connaissance des classificateurs de signaux audio - Sur la bioacoustique des Tursiops truncatus" a été développé en utilisant l'exemple du grand dauphin, mais décrit un cadre complet et transférable pour l'annotation automatique des enregistrements bioacoustiques. Trois résultats sont directement utiles pour la reconnaissance du chant des oiseaux :

Robustesse au bruit de fond : dans une étude contrôlée des sons de sifflet synthétiques, l'exactitude et la précision des classificateurs spectrographiques n'ont chuté de manière significative qu'à un rapport signal/bruit inférieur à −30 dB (Chapitre 5.5). Jusqu'à cette valeur, le taux de réussite est resté constamment élevé, ce qui indique que les méthodes basées sur le spectrogramme n'ont pas besoin d'enregistrements en studio pour effectuer une classification fiable.
Tolérance de polyphonie quantifiée : Selon Hübner, avec une moyenne de trois sifflements simultanés dans un enregistrement, le groupe de classificateurs testé a quand même atteint une précision de 79 % avec une précision de 100 % (Chapitre 5.6). Ce n'est qu'après quatre superpositions ou plus que les performances ont chuté de manière significative. Pour notre application, cela signifie : deux oiseaux chanteurs ne posent pas de problème, mais un chœur à l'aube avec cinq chanteurs simultanés l'est.
La visualisation comme outil scientifique : à l'aide de palettes de couleurs optimisées pour le contraste, Hübner montre qu'un codage couleur soigneusement sélectionné élargit la plage de valeurs visibles d'un spectrogramme d'un facteur d'environ trois par rapport à une représentation pure en niveaux de gris (chapitre 3.2). Les nuances fines qui restent invisibles en niveaux de gris peuvent être distinguées par un contraste froid-chaud dans la plage de valeurs moyennes - exactement le principe qui sous-tend les palettes uniformes de perception courantes telles que viridis, magma ou inferno.

Méthodologiquement, le travail souligne deux principes qui s'appliquent à tout pipeline de classification : Premièrement, la séparation des signatures de phénomènes acoustiques (connaissance) et des algorithmes de reconnaissance de formes (technologie) - un ensemble de connaissances formalisées sous la forme d'une signature compacte survit aux changements dans les modèles sous-jacents (détecteur de corrélation classique → CNN → modèle Foundation) sans perte d'informations. Deuxièmement, l'observation selon laquelle les spectrogrammes logarithmiques offrent une sélectivité nettement meilleure pour les structures silencieuses que les valeurs d'amplitude linéaires - une étape que les pipelines modernes effectuent également systématiquement avant la mise à l'échelle de Mel.

Ce qui reste difficile

Malgré tous les progrès, trois problèmes demeurent que même OpenInsect ne résout pas comme par magie :

Polyphonie : Lorsque plusieurs oiseaux chantent en même temps, le taux de reconnaissance chute parfois jusqu'à 10 % (Frommolt et al. 2012). Les recherches actuelles sur la séparation des sources basée sur l'IA (BioCPPNet et autres) promettent des améliorations.
Faible rapport signal/bruit : Le vent, la circulation, l'eau et d'autres animaux masquent l'appel des oiseaux. L'adaptation de domaine et le PCEN compensent partiellement cela, mais seulement partiellement.
Variation dialectale : les oiseaux affichent des dialectes de chant régionaux. Walcott et coll. (2006) ont montré sur le plongeon huard (Gavia immer) que les structures d'appel changent même lorsque le territoire change - un modèle qui n'a été formé que sur des "enregistrements standards" échoue à cause de cela.

Comment OpenInsect met en œuvre les meilleures pratiques scientifiques

OpenInsect combine plusieurs des méthodes décrites ci-dessus dans un pipeline pragmatique qui produit à la fois une classification acoustique et une visualisation en une seule étape :

Couche modèle : Foundation au lieu du CNN classique

Au lieu d'un BirdNET CNN spécialisé, nous nous appuyons sur un modèle de base multimodal avec une entrée audio native, intégré dans notre propre pipeline d'IA de prétraitement, de classification et d'analyse contextuelle. Cette architecture présente deux avantages par rapport aux CNN animaux classiques :

Il peut traiter le contexte : la position GPS, l'heure de la journée, la température, l'humidité et même les notes de l'utilisateur sont acheminées sous forme de texte dans la même inférence. Cela permet de sous-pondérer automatiquement les espèces improbables au niveau régional.
Il fonctionne sur plusieurs espèces : les oiseaux, les hiboux, les grenouilles, les grillons et les cigales sont reconnus par le même modèle, sans qu'il soit nécessaire d'utiliser un classificateur distinct pour chaque groupe d'animaux. Cela correspond à celui d'Abeßer et al. (DEGA 2025) a évoqué une tendance vers une « reconnaissance sonore inter-espèces ».

Traitement des données audio côté serveur

Avant même que le modèle ne commence à classer, chaque enregistrement subit un prétraitement, qui découle directement des articles cités ci-dessus :

Normalisation du volume sonore à −18 LUFS selon EBU R128, afin que les enregistrements à différentes distances puissent être comparés.
Filtre passe-haut à 80 Hz contre le vent et les grondements de la circulation - exactement la plage de fréquences dans laquelle, selon l'article DEGA, se produit le bruit de fond le plus fort.
Suppression du silence avec seuil de −40 dB pour que le modèle se concentre sur les passages d'appel réels.
Création de spectrogramme avec FFmpeg `showspectrumpic`, palette de couleurs viridis, bande de fréquence 0-12 kHz, échelle linéaire. Le résultat est le graphique que vous voyez après chaque clic dans votre message.

Enrichissement du contexte

Lors du téléchargement, l'application envoie non seulement l'audio, mais aussi un tableau contextuel compact : coordonnées GPS (pour la plausibilité régionale), heure de la journée (les hiboux sonnent différemment le matin et la nuit), données météorologiques (le vent explique le bruit de fond) et - si disponibles - notes d'observation. Ces données réduisent considérablement l'ensemble effectif des classes de classification et augmentent ainsi considérablement la précision du top 1 sans que le modèle lui-même ait besoin d'être recyclé.

Bonnes pratiques de visualisation : pourquoi nos spectrogrammes ressemblent-ils à ce à quoi ils ressemblent

Un spectrogramme n'est pas seulement une image pour l'optique - c'est un diagramme scientifique dont les axes, les échelles et les couleurs transmettent des informations. Quatre décisions de conception sont consciemment prises derrière les spectrogrammes OpenInsect :

Axe des fréquences linéaire au lieu de logarithmique

Pour les oiseaux chanteurs classiques avec une bande principale de 2 à 8 kHz, un axe de fréquence linéaire est facile à lire : la bande vocale occupe une grande partie uniformément affichée du graphique. Une échelle logarithmique surévaluerait les basses fréquences (inférieures à 500 Hz), même s'il ne s'agit généralement que du bruit du vent ou de la circulation. Cependant, pour les cris de hiboux à basse fréquence ou les grands oiseaux, une échelle de Mel peut en fait être meilleure - un futur mode d'affichage possible.

Plage de fréquence 0-12 kHz

La limite supérieure provient du théorème de Nyquist à 24 kHz d'échantillonnage. Des fréquences plus élevées ne sont pas pertinentes pour l’identification des espèces d’oiseaux – Frommolt et al. (2012) et Abeßer et al. (2025) confirment tous deux que la bande principale se termine juste en dessous de 10 kHz.

Viridis au lieu de Jet

La palette de couleurs viridis est perceptuellement uniforme : des distances de couleurs égales correspondent à des distances d'énergie égales. L'ancienne palette « jet » (bleu → cyan → vert → jaune → rouge) crée des sauts optiques qui ne sont pas dans le signal et est également difficile à lire pour les personnes aveugles au rouge et au vert. Les logiciels scientifiques de bioacoustique sont largement passés au viridis (ou magma/inferno) ces dernières années.

Compromis temps-fréquence

Nous utilisons les valeurs par défaut de FFmpeg (taille de la fenêtre environ 2 048 échantillons, taille du saut 25 %) - il s'agit d'un compromis conscient entre la fréquence et la résolution temporelle, qui rend reconnaissables à la fois les trilles rapides et les longs sifflements. Pour les analyses de recherche à haute résolution (par exemple, des taux de trille jusqu'à 48 Hz, comme décrit dans Podos 1997 et DEGA 2025), une taille de fenêtre plus petite serait logique - c'est un point que nous pouvons encore optimiser.

Sources et lectures complémentaires

Si vous souhaitez approfondir les bases scientifiques de la reconnaissance automatique des chants d'oiseaux, nous vous recommandons les sources primaires suivantes, disponibles gratuitement :

Frommolt, K.-H., Hüppop, O., Bardeli, R., Hill, R., Koch, M., Tauchert, K.-H. & Specht, R. (2012) : Méthodes automatisées d'enregistrement des cris et des chants dans le cadre de recherches avifaunistiques sur le terrain. Vogelwarte 50, p. 65-78. PDF (Zobodat)
Krüger, S. (hiver 22/23) : Reconnaissance automatique du chant des oiseaux. Travail de projet dans le cadre de « l'analyse sonore assistée par l'IA », Université de musique Franz Liszt de Weimar (Prof. Dr. Pfleiderer / Prof. Abeßer). PDF (HfM Weimar)
Abeßer, J., Lukashevich, H., Ziegler, S. et Bös, J. (2025) : Progrès dans la reconnaissance automatique des chants d'oiseaux. Akustik Journal 03/2025 (Société allemande d'acoustique), pp. PDF (DEGA Akustik)
Hübner, S. (2006/2008) : Modélisation basée sur les connaissances des classificateurs de signaux audio – Sur la bioacoustique de Tursiops truncatus. Thèse, Faculté des sciences humaines de l'Université de Potsdam, 2e édition révisée, University Press Potsdam. PDF (Université de Potsdam)

Recommandation aux scientifiques et aux scientifiques citoyens : Les enregistrements OpenInsect anonymisés avec spectrogramme et données contextuelles (GPS, météo, score de confiance) peuvent être bien utilisés pour valider vos propres modèles ou pour des analyses de biodiversité. Si vous êtes intéressé par une exportation de données structurées, vous pouvez nous contacter via l'application - nous nous considérons comme une plateforme scientifique citoyenne analogue à Xeno-Canto et à la bibliothèque Macaulay, avec la valeur ajoutée supplémentaire que chaque enregistrement inclut déjà une visualisation de spectrogramme.

Téléchargez OpenInsect gratuitement maintenant

Essayez par vous-même la reconnaissance des chants d'oiseaux : OpenInsect est disponible pour iOS et Android :

À chaque téléchargement, vous alimentez le modèle avec des données d'observation réelles et faites partie d'une communauté croissante d'amoureux de la nature, d'ornithologues amateurs et de scientifiques citoyens.

Classé en : App, Bioakustik, KI, Spektrogramm, Vogelgesang, Vogelstimmen, Wissenschaft