دسته بندی صدا با استفاده از Deep Learning

مقدمه

تصاویر و صداها دو مورد از رایج‌ترین اطلاعاتی هستند که انسان‌ها درک می‌کنند. برای بیشتر افراد، تحلیل و درک این حواس به‌صورت شهودی کار ساده‌ای است. همان‌طور که پردازش زبان طبیعی (NLP) برای انسان‌ها آسان است، برای ماشین‌ها این‌طور نبوده و در گذشته نتایج مطلوبی حاصل نمی‌شد. اما با ظهور و پیشرفت مدل‌های یادگیری عمیق در دهه گذشته، امکان انجام محاسبات پیچیده و حل پروژه‌های دشوار با دقت بالاتر فراهم شده است.

در این مقاله و مقالات آینده، بررسی خواهیم کرد که چگونه مدل‌های یادگیری عمیق برای حل وظایف طبقه‌بندی صوت و حتی تولید موسیقی استفاده می‌شوند. تمرکز اصلی این مقاله بر روی پروژه طبقه‌بندی صوت خواهد بود و تلاش می‌کنیم با استفاده از معماری‌های ساده، به نتایج مطلوبی دست یابیم.

طبقه‌بندی صوت چیست؟

طبقه‌بندی صوت فرایندی است که طی آن، هر نوع صدا، نویز، نت‌های موسیقی یا هر داده صوتی مشابه، تحلیل و شناسایی شده و در دسته‌بندی‌های مناسب قرار می‌گیرد. داده‌های صوتی می‌توانند اشکال متنوعی داشته باشند، مانند:

• صداهای حاصل از دستگاه‌های صوتی

• آکوردهای موسیقی از سازها

• گفتار انسان

• صداهای طبیعی مانند آواز پرندگان

تکنیک‌های مدرن یادگیری عمیق به ما این امکان را می‌دهند که به نتایج پیشرفته‌ای در پردازش سیگنال‌های صوتی دست پیدا کنیم.

پیش‌نیازها

هدف اصلی این مقاله، درک کامل پروژه طبقه‌بندی صوت و یادگیری مفاهیم اساسی پردازش سیگنال است. همچنین برخی از بهترین روش‌های موجود برای دستیابی به نتایج مطلوب را بررسی خواهیم کرد.

قبل از ورود به محتوای مقاله، توصیه می‌شود که با فریمورک‌های یادگیری عمیق و برخی مفاهیم پایه‌ای دیگر آشنا شوید. حال، اجازه دهید برخی از مفاهیم اساسی طبقه‌بندی صوت را بررسی کنیم.

مفاهیم اولیه در طبقه‌بندی صوت

در این بخش، به بررسی برخی از اصطلاحات کلیدی که برای درک طبقه‌بندی صوت با یادگیری عمیق ضروری هستند، خواهیم پرداخت. این مفاهیم نقش مهمی در انجام پروژه‌های پردازش صوت دارند. بیایید برخی از این مفاهیم کلیدی را به‌طور خلاصه تحلیل کنیم.

موج صوتی

قبل از اینکه موج صوتی و پارامترهای مختلف آن را بررسی کنیم، باید بفهمیم که صدا چیست. صدا، ارتعاشاتی است که یک جسم تولید می‌کند و باعث نوسان ذرات هوا در اطراف آن می‌شود. تغییرات مربوط به فشار هوا این امواج صوتی را ایجاد می‌کنند. صدا یک موج مکانیکی است که در آن انرژی از یک منبع به منبع دیگر منتقل می‌شود.

موج صوتی یک نمایش شماتیک است که به ما کمک می‌کند تا جابه‌جایی امواج صوتی را در طول زمان، همراه با سایر پارامترهای ضروری برای یک وظیفه خاص، تحلیل کنیم.

از سوی دیگر، فرکانس در یک موج صوتی نشان‌دهنده تعداد دفعاتی است که موج در یک بازه زمانی یک‌ثانیه‌ای تکرار می‌شود. نقطه اوج موج که در بالاترین قسمت آن قرار دارد، قله نامیده می‌شود، در حالی که پایین‌ترین نقطه موج دره نام دارد.

دامنه، فاصله از خط مرکزی تا بالای یک قله یا پایین یک دره است.

با درک مختصری از این مفاهیم اساسی، می‌توانیم به بررسی سایر موضوعات ضروری برای طبقه‌بندی صوت بپردازیم.

طیف‌نگار

طیف‌نگارها

طیف‌نگارها نمایش‌های بصری از طیف فرکانس‌های موجود در یک سیگنال صوتی هستند. اصطلاحات فنی دیگر برای طیف‌نگار شامل سونُوگراف، ویس‌پرینت (voiceprint) یا ویس‌گرام (voicegram) است. طیف‌نگارها به‌طور گسترده‌ای در زمینه‌هایی مانند پردازش سیگنال، تولید موسیقی، طبقه‌بندی صوتی، تحلیل زبان‌شناختی، تشخیص گفتار و بسیاری کاربردهای دیگر استفاده می‌شوند. در این مقاله نیز از طیف‌نگارها برای وظیفه طبقه‌بندی صوتی استفاده خواهیم کرد. برای اطلاعات بیشتر در مورد این موضوع، پیشنهاد می‌شود به لینک زیر مراجعه کنید.

پردازش سیگنال صوتی

پردازش سیگنال صوتی شاخه‌ای از علم است که به بررسی سیگنال‌های صوتی، امواج صوتی و دستکاری فرکانس‌های صوتی می‌پردازد. در حوزه یادگیری عمیق برای پردازش سیگنال صوتی، کاربردهای متعددی وجود دارد که می‌توان روی آن‌ها کار کرد.

در این مقاله، ما موضوع طبقه‌بندی صوتی را با جزئیات بیشتری پوشش خواهیم داد. برخی دیگر از کاربردهای مهم شامل تشخیص گفتار، کاهش نویز صوتی، بازیابی اطلاعات صوتی، تولید موسیقی و بسیاری موارد دیگر هستند. ترکیب یادگیری عمیق با پردازش سیگنال صوتی امکانات بی‌شماری را به وجود آورده است که ارزش بررسی و تحقیق دارد.

درک پروژه طبقه‌بندی صوتی

حال، پیش از آنکه به پیاده‌سازی طبقه‌بندی صوتی از ابتدا بپردازیم، بیایید این پروژه را بهتر درک کنیم.

درک پروژه طبقه‌بندی صوتی

طبقه‌بندی صوتی یکی از بهترین پروژه‌های مقدماتی برای شروع یادگیری عمیق صوتی است. هدف از این پروژه درک شکل‌موج‌ها (waveforms) در قالب خام و تبدیل داده‌های موجود به شکلی است که برای توسعه‌دهندگان قابل استفاده باشد. با تبدیل شکل‌موج خام داده‌های صوتی به صورت اسپکتروگرام، می‌توان آن‌ها را از طریق مدل‌های یادگیری عمیق ارسال کرد تا داده‌ها تحلیل و تفسیر شوند. در طبقه‌بندی صوتی، معمولاً طبقه‌بندی دودویی انجام می‌دهیم که در آن تعیین می‌کنیم که آیا سیگنال ورودی صدای دلخواه ما است یا خیر.

در این پروژه، هدف ما بازیابی صدای وارد شده از یک پرنده است. سیگنال نویز وارد شده به شکل‌موج تبدیل می‌شود که می‌توانیم برای پردازش و تحلیل بیشتر از آن استفاده کنیم، با کمک فریم‌ورک یادگیری عمیق TensorFlow. پس از موفقیت‌آمیز بودن دریافت شکل‌موج، می‌توانیم آن را به اسپکتروگرام تبدیل کنیم که یک نمایش بصری از شکل‌موج موجود است. از آنجایی که این اسپکتروگرام‌ها تصاویر بصری هستند، می‌توانیم از شبکه‌های عصبی کانولوشنی (CNN) برای تحلیل آن‌ها استفاده کنیم و مدل یادگیری عمیق را برای انجام یک نتیجه طبقه‌بندی دودویی ایجاد کنیم.

پیاده‌سازی پروژه طبقه‌بندی و شناسایی صوتی با یادگیری عمیق

همانطور که قبلاً بحث کردیم، هدف پروژه ما خواندن صداهای وارد شده از جنگل و تفسیر این که آیا داده‌های دریافتی مربوط به یک پرنده خاص (پرنده کاپوچین) است یا خیر، یا این که نویز دیگری است که ما علاقه‌ای به شناسایی آن نداریم. برای ساخت این پروژه، از فریم‌ورک‌های یادگیری عمیق TensorFlow و Keras استفاده خواهیم کرد.

نصب اضافی دیگری که برای این پروژه لازم است، کتابخانه TensorFlow-io است که به ما امکان دسترسی به سیستم‌ فایل‌ها و فرمت‌های فایل‌هایی که در پشتیبانی داخلی TensorFlow موجود نیست، می‌دهد. دستور pip زیر برای نصب این کتابخانه در محیط کاری شما استفاده می‌شود:

pip install tensorflow-io[tensorflow]

وارد کردن کتابخانه‌های ضروری

در گام بعدی، تمام کتابخانه‌های ضروری که برای ساخت پروژه نیاز داریم را وارد خواهیم کرد. برای این پروژه از مدل نوع Sequential استفاده می‌کنیم که به ما اجازه می‌دهد یک شبکه عصبی کانولوشنی ساده بسازیم تا اسپکتروگرام‌های تولید شده را تحلیل کرده و نتیجه مطلوبی بدست آوریم. از آنجایی که معماری مدل توسعه یافته بسیار ساده است، نیاز به استفاده از API مدل عملکردی یا قابلیت مدل‌سازی سفارشی نداریم.

ما از لایه‌های کانولوشنی برای معماری استفاده خواهیم کرد و همچنین از لایه‌های Dense و Flatten. همانطور که قبلاً اشاره کردیم، از کتابخانه ورودی/خروجی TensorFlow برای مدیریت تعداد زیادی از سیستم‌ فایل‌ها و فرمت‌ها مانند فرمت‌های .wav و .mp3 استفاده خواهیم کرد. وارد کردن کتابخانه سیستم‌عامل به ما کمک می‌کند تا به تمام فایل‌های مورد نیاز در فرمت‌های مربوطه دسترسی داشته باشیم:

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Conv2D, Dense, Flatten

import tensorflow_io as tfio

from matplotlib import pyplot as plt

import os

بارگذاری دیتاست

دیتاست این پروژه از چالش Kaggle برای پردازش سیگنال – Z توسط HP Unlocked Challenge 3 در دسترس است که می‌توانید آن را از این لینک دانلود کنید.

برای دانلود داده‌ها:

1. یک حساب کاربری Kaggle بسازید.

2. یک توکن API ایجاد کنید و فایل kaggle.json را ذخیره کنید. (توجه: ممکن است نیاز به ایجاد یک توکن API جدید داشته باشید اگر قبلاً ایجاد کرده‌اید.)

3. فایل kaggle.json را به نوت‌بوک Jupyter خود آپلود کنید.

4. یا سلول زیر را اجرا کنید یا دستورات زیر را در ترمینال اجرا کنید (این ممکن است مدتی طول بکشد).

ترمینال:

mv kaggle.json ~/.kaggle/

pip install kaggle

kaggle datasets download kenjee/z-by-hp-unlocked-challenge-3-signal-processing

unzip z-by-hp-unlocked-challenge-3-signal-processing.zip

سلول:

!mv kaggle.json ~/.kaggle/

!pip install kaggle

!kaggle datasets download kenjee/z-by-hp-unlocked-challenge-3-signal-processing

!unzip z-by-hp-unlocked-challenge-3-signal-processing.zip

پس از دانلود و استخراج دیتاست، سه پوشه در پوشه داده مشاهده می‌کنیم. سه پوشه به شرح زیر است:

1. ضبط‌های جنگلی که یک کلیپ سه دقیقه‌ای از صداهای تولید شده در جنگل هستند.

2. کلیپ‌های سه ثانیه‌ای از ضبط‌های صدای پرنده کاپوچین.

3. کلیپ‌های سه ثانیه‌ای از ضبط‌های صداهایی که توسط پرنده کاپوچین تولید نشده‌اند.

در قطعه کد بعدی، متغیرهایی برای تنظیم مسیر این پوشه‌ها تعریف خواهیم کرد:

CAPUCHIN_FILE = os.path.join(‘data’, ‘Parsed_Capuchinbird_Clips’, ‘XC3776-3.wav’)

NOT_CAPUCHIN_FILE = os.path.join(‘data’, ‘Parsed_Not_Capuchinbird_Clips’, ‘afternoon-birds-song-in-forest-0.wav’)

در گام بعدی، ما تابع بارگذاری داده‌ها را تعریف خواهیم کرد که برای ایجاد شکل‌موج‌های مورد نیاز در فرمت دلخواه برای محاسبات بعدی مفید خواهد بود. تابع تعریف‌شده در قطعه کد زیر به ما این امکان را می‌دهد که داده‌ها را بخوانیم و آن‌ها را به حالت مونو (یا تک‌کاناله) تبدیل کنیم تا تحلیل راحت‌تری انجام دهیم. همچنین فرکانس سیگنال‌ها را تغییر می‌دهیم تا بتوانیم دامنه کلی را تغییر دهیم و نمونه‌های داده‌ای کوچک‌تری برای تحلیل کلی به‌دست آوریم.

def load_wav_16k_mono(filename):

# Load encoded wav file

file_contents = tf.io.read_file(filename)

# Decode wav (tensors by channels)

wav, sample_rate = tf.audio.decode_wav(file_contents, desired_channels=1)

# Removes trailing axis

wav = tf.squeeze(wav, axis=-1)

sample_rate = tf.cast(sample_rate, dtype=tf.int64)

# Goes from 44100Hz to 16000hz – amplitude of the audio signal

wav = tfio.audio.resample(wav, rate_in=sample_rate, rate_out=16000)

return wav

تصویر بالا نمای بصری از شکل‌موج‌های سیگنال‌های Capuchin و Non-Capuchin را نشان می‌دهد.

آماده‌سازی دیتاست

در این بخش از مقاله، مسیرهای مثبت و منفی برای کلیپ‌های پرنده کاپوچین را تعریف خواهیم کرد. متغیرهای مسیر مثبت، مسیر پوشه‌ای که شامل ضبط‌های صوتی پرنده کاپوچین است را ذخیره می‌کنند، در حالی که مسیرهای منفی در یک متغیر دیگر ذخیره می‌شوند. سپس فایل‌ها در این پوشه‌ها را به فرمت‌های .wav لینک کرده و برچسب‌های مربوطه را اضافه خواهیم کرد. این برچسب‌ها در قالب طبقه‌بندی دودویی هستند و به‌صورت ۰ یا ۱ برچسب‌گذاری می‌شوند. برچسب‌های مثبت به مقدار ۱ اختصاص داده می‌شوند که به این معنی است که کلیپ شامل سیگنال صوتی از پرنده کاپوچین است. برچسب‌های منفی با صفرها نشان می‌دهند که سیگنال‌های صوتی نویز تصادفی هستند و شامل ضبط‌های صوتی پرنده کاپوچین نیستند.

# Defining the positive and negative paths

POS = os.path.join(‘data’, ‘Parsed_Capuchinbird_Clips/*.wav’)

NEG = os.path.join(‘data’, ‘Parsed_Not_Capuchinbird_Clips/*.wav’)

# Creating the Datasets

pos = tf.data.Dataset.list_files(POS)

neg = tf.data.Dataset.list_files(NEG)

# Adding labels

positives = tf.data.Dataset.zip((pos, tf.data.Dataset.from_tensor_slices(tf.ones(len(pos)))))

negatives = tf.data.Dataset.zip((neg, tf.data.Dataset.from_tensor_slices(tf.zeros(len(neg)))))

data = positives.concatenate(negatives)

همچنین می‌توانیم طول موج میانگین صدای پرنده کاپوچین را تحلیل کنیم، همانطور که در قطعه کد زیر نشان داده شده است، با بارگذاری پوشه نمونه‌های مثبت و استفاده از تابع بارگذاری داده‌ای که قبلاً ایجاد کردیم.

# Analyzing the average wavelength of a Capuchin bird

lengths = []

for file in os.listdir(os.path.join(‘data’, ‘Parsed_Capuchinbird_Clips’)):

tensor_wave = load_wav_16k_mono(os.path.join(‘data’, ‘Parsed_Capuchinbird_Clips’, file))

lengths.append(len(tensor_wave))

# The minimum, mean, and maximum wave length cycles are provided below.

<tf.Tensor: shape=(), dtype=int32, numpy=32000>

<tf.Tensor: shape=(), dtype=int32, numpy=54156>

<tf.Tensor: shape=(), dtype=int32, numpy=80000>

تبدیل داده‌ها به اسپکتروگرام‌ها

در گام بعدی، تابعی برای انجام پیش‌پردازش‌های لازم برای تحلیل صوتی ایجاد خواهیم کرد. ما شکل‌موج‌هایی که قبلاً دریافت کرده‌ایم را به صورت اسپکتروگرام تبدیل خواهیم کرد. این سیگنال‌های صوتی بصری‌شده در قالب اسپکتروگرام‌ها توسط مدل یادگیری عمیق ما در مراحل بعدی برای تحلیل و تفسیر نتایج استفاده خواهند شد. در قطعه کد زیر، تمام شکل‌موج‌ها را دریافت کرده و تبدیل فوریه کوتاه‌مدت سیگنال‌ها را با استفاده از کتابخانه TensorFlow محاسبه می‌کنیم تا یک نمایش بصری به‌دست آوریم، همانطور که در تصویر زیر نشان داده شده است.

def preprocess(file_path, label):

for i in os.listdir(file_path):

i = file_path.decode() + “/” + i.decode()

wav = load_wav_16k_mono(i)

wav = wav[:48000]

zero_padding = tf.zeros([48000] – tf.shape(wav), dtype=tf.float32)

wav = tf.concat([zero_padding, wav], 0)

spectrogram = tf.signal.stft(wav, frame_length=320, frame_step=32)

spectrogram = tf.abs(spectrogram)

spectrogram = tf.expand_dims(spectrogram, axis=2)

return spectrogram, label

filepath, label = positives.shuffle(buffer_size=10000).as_numpy_iterator().next()

spectrogram, label = preprocess(filepath, label)

ساخت مدل یادگیری عمیق

پیش از شروع به ساخت مدل یادگیری عمیق، ابتدا باید یک پایپ‌لاین داده ایجاد کنیم و داده‌ها را بارگذاری کنیم. ما داده‌های اسپکتروگرام را که از مرحله پیش‌پردازش به دست آمده‌اند، بارگذاری خواهیم کرد. می‌توانیم این داده‌ها را با استفاده از قابلیت‌های داخلی TensorFlow کش و شافل کنیم و همچنین یک اندازه بچ ۱۶ برای بارگذاری داده‌ها تعیین کنیم. قبل از اینکه به ساخت مدل یادگیری عمیق بپردازیم، می‌توانیم مجموعه داده‌ها را به نمونه‌های آموزشی و آزمایشی تقسیم کنیم، همان‌طور که در قطعه کد زیر نشان داده شده است:

# ایجاد پایپ‌لاین داده در TensorFlow

data = data.map(preprocess)

data = data.cache()

data = data.shuffle(buffer_size=1000)

data = data.batch(16)

data = data.prefetch(8)

# تقسیم به مجموعه‌های آموزشی و آزمایشی

train = data.take(36)

test = data.skip(36).take(15)

ساخت مدل یادگیری عمیق

در مرحله بعد، یک مدل از نوع Sequential خواهیم ساخت. می‌توان معماری مدل را با استفاده از API تابعی یا الگوی مدل سفارشی توسعه داد. سپس لایه‌های کانولوشنی را با شکل مناسب برای برچسب نمونه اضافه می‌کنیم تا دو بلوک از لایه‌های کانولوشنی با ۱۶ فیلتر و اندازه کرنل (۳,۳) ایجاد شود. در ساخت این لایه‌های کانولوشنی از تابع فعال‌سازی ReLU استفاده شده است. سپس، خروجی حاصل از لایه‌های کانولوشنی را فلت می‌کنیم تا برای پردازش‌های بعدی مناسب باشد. در نهایت، لایه‌های کاملاً متصل را با تابع فعال‌سازی Sigmoid اضافه می‌کنیم که دارای یک نود خروجی برای انجام طبقه‌بندی دودویی خواهد بود. قطعه کد و خلاصه مدل ساخته‌شده در زیر آورده شده است:

model = Sequential()

model.add(Conv2D(16, (3,3), activation=’relu’, input_shape=(1491, 257,1)))

model.add(Conv2D(16, (3,3), activation=’relu’))

model.add(Flatten())

# model.add(Dense(128, activation=’relu’))

model.add(Dense(1, activation=’sigmoid’))

model.summary()

خلاصه مدل ساخته‌شده:

Model: “sequential”

_________________________________________________________________

Layer (type) Output Shape Param #

=================================================================

conv2d (Conv2D) (None, 1489, 255, 16) 160

conv2d_1 (Conv2D) (None, 1487, 253, 16) 2320

flatten (Flatten) (None, 6019376) 0

dense (Dense) (None, 1) 6019377

=================================================================

Total params: 6,021,857

Trainable params: 6,021,857

Non-trainable params: 0

_________________________________________________________________

کامپایل و آموزش مدل

پس از تکمیل معماری مدل، می‌توانیم آن را کامپایل کرده و آموزش دهیم. برای کامپایل مدل، از بهینه‌ساز Adam، تابع هزینه Binary Crossentropy برای طبقه‌بندی دودویی و همچنین معیارهای دقت و یادآوری برای تحلیل مدل استفاده خواهیم کرد. سپس مدل را با داده‌های آموزشی که قبلاً ساخته‌ایم، آموزش می‌دهیم و آن را برای چندین دوره آموزشی (epochs) با داده‌های آزمایشی اعتبارسنجی می‌کنیم. قطعه کد و نتایج این مرحله در زیر آمده است:

# کامپایل و تنظیم مدل

model.compile(‘Adam’, loss=’BinaryCrossentropy’, metrics=[tf.keras.metrics.Recall(), tf.keras.metrics.Precision()])

# آموزش مدل

model.fit(train, epochs=4, validation_data=test)

خروجی فرآیند آموزش:

Epoch 1/4

36/36 [==============================] – 204s 6s/step – loss: 1.6965 – recall: 0.8367 – precision: 0.8483 – val_loss: 0.0860 – val_recall: 0.9254 – val_precision: 0.9688

Epoch 2/4

36/36 [==============================] – 200s 6s/step – loss: 0.0494 – recall: 0.9477 – precision: 0.9932 – val_loss: 0.0365 – val_recall: 1.0000 – val_precision: 0.9846

Epoch 3/4

36/36 [==============================] – 201s 6s/step – loss: 0.0314 – recall: 0.9933 – precision: 0.9801 – val_loss: 0.0228 – val_recall: 0.9821 – val_precision: 1.0000

Epoch 4/4

36/36 [==============================] – 201s 6s/step – loss: 0.0126 – recall: 0.9870 – precision: 1.0000 – val_loss: 0.0054 – val_recall: 1.0000 – val_precision: 0.9861

تحلیل و ارزیابی مدل

پس از ساخت و آموزش موفقیت‌آمیز مدل، می‌توانیم نتایج را تحلیل و اعتبارسنجی کنیم. معیارهای به‌دست‌آمده نشان‌دهنده پیشرفت خوبی در عملکرد مدل هستند. بنابراین، می‌توان مدل ساخته‌شده را برای انجام پیش‌بینی‌های نسبتاً موفق در مورد صدای پرندگان کاپوچین و شناسایی فرکانس نویز آن‌ها مناسب دانست. در بخش بعدی، به مراحل مربوط به این فرآیند خواهیم پرداخت.

انجام پیش‌بینی‌های مورد نیاز

در مرحله نهایی این پروژه، نحوه انجام پیش‌بینی‌های مناسب روی تمام فایل‌های موجود در ضبط‌های جنگلی را بررسی خواهیم کرد. اما قبل از آن، نحوه پیش‌بینی در یک دسته (batch) واحد را در کد زیر مشاهده می‌کنیم.

# پیش‌بینی برای یک دسته

X_test, y_test = test.as_numpy_iterator().next()

yhat = model.predict(X_test)

# تبدیل مقادیر خروجی به کلاس‌های دودویی

yhat = [1 if prediction > 0.5 else 0 for prediction in yhat]

اکنون که نحوه انجام پیش‌بینی برای یک دسته را بررسی کردیم، باید بدانیم که چگونه می‌توان پیش‌بینی‌ها را روی تمام فایل‌های موجود در دایرکتوری ضبط‌های جنگلی انجام داد. هر کلیپ در این مجموعه حدود سه دقیقه طول دارد. از آنجایی که پیش‌بینی‌های ما روی کلیپ‌های سه‌ثانیه‌ای انجام می‌شود، این کلیپ‌های طولانی‌تر را به طیف‌های پنجره‌ای تقسیم می‌کنیم.

ما می‌توانیم کلیپ‌های سه‌دقیقه‌ای (۱۸۰ ثانیه) را به ۶۰ قطعه کوچکتر تقسیم کرده و تعداد کل فراخوان‌های پرنده Capuchin را در این بخش شناسایی کنیم. هر کلیپ در اینجا مقدار ۰ یا ۱ خواهد داشت. پس از تعیین تعداد صداها برای هر طیف پنجره‌ای، می‌توانیم تعداد کل دفعات شنیده شدن صدای پرنده را در کل کلیپ محاسبه کنیم. این تعداد کل دفعات، مشخص می‌کند که صدای پرنده Capuchin چند بار در طول فایل صوتی شنیده شده است.

در قطعه کد زیر، اولین تابع مورد نیاز برای این عملیات را می‌سازیم. این تابع مشابه عملکردی است که در بخش قبل مورد بحث قرار گرفت، اما این بار کلیپ‌های ضبط‌شده را که در فرمت MP3 هستند (به جای WAV) پردازش می‌کند. این تابع فایل MP3 را ورودی گرفته و آن را به یک تنسور (Tensor) تبدیل می‌کند. سپس میانگین مقدار ورودی چندکاناله را محاسبه کرده و آن را به یک کانال مونو (Mono) تبدیل می‌کند تا سیگنال صوتی با فرکانس موردنظر به دست آید.

def load_mp3_16k_mono(filename):

“”” بارگذاری یک فایل صوتی، تبدیل آن به یک تنسور عددی، بازنمونه‌برداری به ۱۶ کیلوهرتز و تبدیل به صدای تک‌کاناله. “””

res = tfio.audio.AudioIOTensor(filename)

# تبدیل به تنسور و ادغام کانال‌ها

tensor = res.to_tensor()

tensor = tf.math.reduce_sum(tensor, axis=1) / 2

# استخراج نرخ نمونه‌برداری و تبدیل آن

sample_rate = res.rate

sample_rate = tf.cast(sample_rate, dtype=tf.int64)

# بازنمونه‌برداری به ۱۶ کیلوهرتز

wav = tfio.audio.resample(tensor, rate_in=sample_rate, rate_out=16000)

return wav

mp3 = os.path.join(‘data’, ‘Forest Recordings’, ‘recording_00.mp3’)

wav = load_mp3_16k_mono(mp3)

audio_slices = tf.keras.utils.timeseries_dataset_from_array(wav, wav, sequence_length=48000, sequence_stride=48000, batch_size=1)

samples, index = audio_slices.as_numpy_iterator().next()

در قطعه کد بعدی، تابعی را ایجاد می‌کنیم که به ما کمک می‌کند تا قطعات صوتی را به طیف‌نگارهای پنجره‌ای (Windowed Spectrograms) تبدیل کنیم تا پردازش‌های بعدی انجام شود. داده‌ها را متناسب با این روش نقشه‌برداری (Mapping) کرده و بخش‌های موردنیاز را برای انجام پیش‌بینی‌های مناسب ایجاد می‌کنیم.

# تابعی برای تبدیل کلیپ‌ها به طیف‌نگارهای پنجره‌ای

def preprocess_mp3(sample, index):

sample = sample[0]

zero_padding = tf.zeros([48000] – tf.shape(sample), dtype=tf.float32)

wav = tf.concat([zero_padding, sample],0)

spectrogram = tf.signal.stft(wav, frame_length=320, frame_step=32)

spectrogram = tf.abs(spectrogram)

spectrogram = tf.expand_dims(spectrogram, axis=2)

return spectrogram

audio_slices = tf.keras.utils.timeseries_dataset_from_array(wav, wav, sequence_length=16000, sequence_stride=16000, batch_size=1)

audio_slices = audio_slices.map(preprocess_mp3)

audio_slices = audio_slices.batch(64)

yhat = model.predict(audio_slices)

yhat = [1 if prediction > 0.5 else 0 for prediction in yhat]

در قطعه کد نهایی این مقاله، ما این فرآیند را روی تمام فایل‌های موجود در ضبط‌های جنگلی اجرا کرده و نتیجه کلی را دریافت خواهیم کرد. نتایج شامل مقادیر ۰ و ۱ برای کلیپ‌های صوتی خواهد بود. مجموع مقادیر ۱ نشان‌دهنده تعداد دفعات شنیده شدن صدای پرنده Capuchin در هر کلیپ است. این تعداد در نهایت برای تعیین کل میزان تماس‌های ضبط‌شده این پرنده مورد استفاده قرار می‌گیرد. کد مربوط به این بخش در ادامه آمده است.

results = {}

class_preds = {}

for file in os.listdir(os.path.join(‘data’, ‘Forest Recordings’)):

FILEPATH = os.path.join(‘data’,’Forest Recordings’, file)

wav = load_mp3_16k_mono(FILEPATH)

audio_slices = tf.keras.utils.timeseries_dataset_from_array(wav, wav, sequence_length=48000, sequence_stride=48000, batch_size=1)

audio_slices = audio_slices.map(preprocess_mp3)

audio_slices = audio_slices.batch(64)

yhat = model.predict(audio_slices)

results[file] = yhat

for file, logits in results.items():

class_preds[file] = [1 if prediction > 0.99 else 0 for prediction in logits]

class_preds

منابع و بهبودهای احتمالی

دو منبع اصلی این پروژه، یکی نوت‌بوک Kaggle و دیگری لینک GitHub مرتبط با آن هستند. بیشتر کدهای این پروژه از این منابع گرفته شده است، بنابراین توصیه می‌شود که به آن‌ها مراجعه کنید. می‌توان یک نوت‌بوک جدید با این آدرس به عنوان Workspace URL ایجاد کرد تا این کدها را مستقیماً در قالب یک .ipynb درون یک نوت‌بوک بارگذاری کنید.

چندین بهبود اضافی می‌توانند در این پروژه اعمال شوند تا نتایج بهتری حاصل شود. برای مثال، می‌توان پیچیدگی شبکه عصبی را افزایش داد و از روش‌های نوآورانه برای بهبود دقت تحلیل الگوهای صوتی پرنده Capuchin استفاده کرد. در مقالات آینده، به پروژه‌های دیگری در زمینه پردازش سیگنال‌های صوتی خواهیم پرداخت.

نتیجه‌گیری

پردازش سیگنال‌های صوتی با یادگیری عمیق به دلیل نرخ موفقیت بالای آن، به شدت مورد توجه قرار گرفته است. بسیاری از پروژه‌های پیچیده مانند تشخیص صدا، طبقه‌بندی موسیقی، دسته‌بندی صداهای محیطی و موارد دیگر را می‌توان با استفاده از یادگیری عمیق انجام داد.

در این مقاله، طبقه‌بندی صوتی با یادگیری عمیق را بررسی کردیم. اجزای اساسی موردنیاز برای درک کامل این مفهوم را تحلیل کرده و سپس پیاده‌سازی آن را با استفاده از TensorFlow انجام دادیم. چندین بهبود می‌توانند به این پروژه اضافه شوند تا نتایج بهتری حاصل شود.

در مقالات آینده، به پروژه‌های جذاب‌تری در زمینه پردازش سیگنال‌های صوتی با یادگیری عمیق خواهیم پرداخت. همچنین، پروژه‌هایی مرتبط با تولید موسیقی، شبکه‌های مولد تخاصمی (GANs) و شبکه‌های عصبی از ابتدا را بررسی خواهیم کرد. تا آن زمان، از کاوش و ساخت پروژه‌های جدید لذت ببرید!

Click to rate this post!

[Total: 0 Average: 0]

نویسنده :

مهدی شجاع

مقالات نویسنده

انتخاب بهترین GPU برای یادگیری ماشین

هوش مصنوعی

H100 در برابر سایر پردازنده‌های گرافیکی: انتخاب بهترین GPU برای بار کاری یادگیری ماشین شما مقدمه سخت‌افزار محاسباتی قدرتمند برای آموزش و استقرار سیستم‌های یادگیری ماشین (ML) و هوش مصنوعی (AI) ضروری است. پردازنده‌های گرافیکی (GPU) به دلیل توان پردازشی و پردازش موازی، نقش حیاتی در اجرای مدل‌های یادگیری ماشین دارند. انویدیا (NVIDIA) پیشگام توسعه GPU برای یادگیری عمیق است و این پیشرفت با پیچیدگی فزاینده مدل‌های یادگیری ماشین همراه شده است. پردازنده گرافیکی NVIDIA H100 بر پایه معماری Hopper ساخته شده و برای دستیابی به سرعت محاسباتی بی‌سابقه طراحی شده است. این GPU برخی از چالش‌برانگیزترین و پردازش‌های رایانش با کارایی بالا (HPC) در حوزه هوش مصنوعی را مدیریت می‌کند. این مقاله پردازنده NVIDIA H100 را از نظر عملکرد،...

خواندن مقاله

بهینه‌سازی عملکرد GPU برای Deep Learning

هوش مصنوعی

نقش GPUها در یادگیری عمیق محاسبات GPU صنایع مختلفی را متحول کرده و پیشرفت‌های یادگیری عمیق کاربردی را در وسایل نقلیه خودران، رباتیک و زیست‌شناسی مولکولی ممکن ساخته است. قابلیت‌های پردازش موازی پرسرعتی که این ماشین‌ها ارائه می‌دهند، محاسبات ضرب ماتریسی مورد نیاز برای پردازش و تبدیل حجم عظیمی از داده‌ها را برای آموزش و استنتاج (پیش‌بینی) مدل‌های یادگیری عمیق که شامل لایه‌هایی از گره‌های به‌هم‌پیوسته (شبکه‌های عصبی) هستند، تسریع می‌کند. آموزش این شبکه‌های عصبی و انجام استنتاج به‌صورت سریع‌تر و ارزان‌تر، اولویتی مهم در تحقیق و توسعه هوش مصنوعی است. در زمینه محاسبات GPU، این امر مستلزم درک چگونگی بهینه‌سازی بهتر عملکرد GPU است. پیش‌نیازها آشنایی با موارد زیر به درک بهتر موضوعات ارائه‌شده در این مقاله کمک می‌کند:...

خواندن مقاله

نحوه استفاده از ابزارهای کانتینری Nvidia و Miniconda با GPU Droplets

لینوکس,هوش مصنوعی

مقدمه استفاده از کانتینرها برای پردازش‌های مبتنی بر GPU نیازمند نصب Nvidia Container Toolkit و اجرای Docker با فلگ‌های اضافی است. این آموزش نحوه تنظیم Nvidia Container Toolkit، اجرای Docker برای بارهای کاری GPU و نصب Miniconda جهت مدیریت محیط‌های Python را توضیح می‌دهد. این راهنما به‌طور خاص بر استفاده از PyTorch با GPU Droplets در DigitalOcean تمرکز دارد. پیش‌نیازها برای دنبال کردن این آموزش، شما به موارد زیر نیاز دارید: • یک حساب کاربری در DigitalOcean Cloud. • یک GPU Droplet. چرا از GPU Droplet استفاده کنیم؟ GPU Droplets در DigitalOcean مجهز به کارت‌های NVIDIA H100 هستند که می‌توانید در لحظه آن‌ها را راه‌اندازی کنید—همین امروز با ایجاد یک GPU Droplet آن را امتحان کنید. مرحله ۱ - تنظیم...

خواندن مقاله

نرمال‌سازی دسته‌ای در شبکه‌های عصبی کانولوشنی

هوش مصنوعی

نرمال‌سازی دسته‌ای اصطلاحی است که معمولاً در زمینه شبکه‌های عصبی کانولوشنی ذکر می‌شود. در این مقاله، قصد داریم بررسی کنیم که این مفهوم دقیقاً شامل چه مواردی است و چه تأثیری (در صورت وجود) بر عملکرد یا رفتار کلی شبکه‌های عصبی کانولوشنی دارد. پیش‌نیازها • پایتون: برای اجرای کدهای این مقاله، سیستم شما باید پایتون را نصب داشته باشد. خوانندگان باید تجربه‌ی ابتدایی برنامه‌نویسی با پایتون را داشته باشند. • مفاهیم پایه یادگیری عمیق: این مقاله مفاهیمی را پوشش می‌دهد که برای اعمال تئوری یادگیری عمیق ضروری هستند. از خوانندگان انتظار می‌رود که با اصطلاحات و مبانی اولیه‌ی این حوزه آشنایی داشته باشند. اصطلاح نرمال‌سازی import torch import torch.nn as nn import torch.nn.functional as F import torchvision...

خواندن مقاله

مدل BART برای خلاصه‌سازی متن چیست ؟

هوش مصنوعی

مقدمه روش‌های خودنظارتی بسیاری از وظایف مختلف پردازش زبان طبیعی (NLP) را تکمیل کرده‌اند. خودرمزگذارهای نویززدایی که برای بازیابی متن در شرایطی که مجموعه‌ای تصادفی از کلمات حذف شده‌اند آموزش دیده‌اند، به‌عنوان مؤثرترین روش شناخته شده‌اند. تحقیقات اخیر نشان داده‌اند که با بهبود توزیع ماسک، ترتیب پیش‌بینی ماسک و زمینه‌ی جایگزینی توکن‌های ماسک‌شده می‌توان عملکرد را افزایش داد. با این حال، با وجود نتایج امیدوارکننده، این روش‌ها اغلب محدود به چند وظیفه‌ی مشخص مانند پیش‌بینی بازه‌ها و ایجاد بازه‌ها هستند. پیش‌نیازها برای دنبال کردن این مقاله، نیاز به تجربه‌ی کدنویسی با پایتون و درک ابتدایی از یادگیری عمیق دارید. ما فرض می‌کنیم که همه‌ی خوانندگان به ماشین‌هایی با قدرت پردازش کافی دسترسی دارند تا بتوانند کدهای ارائه‌شده را اجرا کنند....

خواندن مقاله

نظرات کاربران

دیدگاهی بنویسید لغو پاسخ

حالت تمام صفحه

دسته بندی :

هوش مصنوعی

نوشته شده در :

۱۹ فروردین ۱۴۰۴

بروزرسانی شده در :

11 فروردین 1404

بازدید ها :

بازدید

جدید ترین نوشته ها :

آموزش ساخت اولین برنامه وب با Flask و پایتون ۳

چگونه در Flask خطاها را مدیریت کنیم و صفحات خطای سفارشی بسازیم؟

چگونه از Aggregation‌ها در MongoDB استفاده کنیم؟

چگونه یک برنامهٔ Django مبتنی بر ASGI را همراه با Postgres، Nginx و Uvicorn در Ubuntu 20.04 راه‌اندازی کنیم؟

لایسنس‌های نرم‌افزارهای متن‌باز

درک انواع داده در PHP

دسته بندی صدا با استفاده از Deep Learning

مطالب مرتبط :

انتخاب بهترین GPU برای یادگیری ماشین

بهینه‌سازی عملکرد GPU برای Deep Learning

نحوه استفاده از ابزارهای کانتینری Nvidia و Miniconda با GPU Droplets

نرمال‌سازی دسته‌ای در شبکه‌های عصبی کانولوشنی

مدل BART برای خلاصه‌سازی متن چیست ؟

دیدگاهی بنویسید لغو پاسخ

اشتراک گذاری :