تو این پست آموزشی، یه مدل طبقهبندی متن با TensorFlow رو ارائه میدیم که دیتاست این پروژه نظرات مربوط به فیلمهای سینمایی هست که طبقهبندی اونها بر اساس متن نظرات انجام میشه که به دو دسته مثبت و منفی تقسیم میشن. این یه مسئله طبقهبندی باینری هست که یکی از مسائل پرکاربرد و مهم یادگیری ماشین محسوب میشه.
طبقهبندی متن با TensorFlow
تو این بخش اپلیکیشن یادگیری انتقال رو با TensorFlow Hub و Keras ارائه میدیم. دیتاست IMDB که برای این کار استفاده شده حاوی ۵۰ هزار نقد و نظر در مورد فیلمهای سینماییه که از دیتابیس فیلمهای اینترنتی جمع آوری شده. ۵۰ درصد از این دیتاست برای آموزش و ۵۰ درصد بقیه برای تست مدل استفاده میشه. دیتاست مربوط به آموزش و تست طوری متعادلاند که هر کدوم تعداد برابری از نظرات مثبت و منفی رو شامل میشن.
حالا بیاید کارمون رو با ایمپورت کتابخونه های ضروری شروع کنیم:
import numpy as np
import tensorflow as tf
!pip install tensorflow-hub
!pip install tensorflow-datasets
import tensorflow_hub as hub
import tensorflow_datasets as tfds
print("Version: ", tf.__version__)
print("Eager mode: ", tf.executing_eagerly())
print("Hub version: ", hub.__version__)
print("GPU is", "available" if tf.config.experimental.list_physical_devices("GPU") else "NOT AVAILABLE")
با این که دیتاستی که برای این پروژه استفاده شده، بهصورت آنلاین در دسترس و قابل دانلوده ولی بهراحتی میتونین دیتاست رو با استفاده از TensorFlow دانلود کنید. این به این معنیه که حتماً نیاز نیست که دیتاست رو از منابع خارجی دانلود کنین. الآن، بهراحتی دادهها رو بارگیری میکنیم و اونها رو به مجموعه داده آموزش و تست تقسیم میکنیم:
# Split the training set into 60% and 40%, so we'll end up with 15,000 examples
# for training, 10,000 examples for validation and 25,000 examples for testing.
train_data, validation_data, test_data = tfds.load(
name="imdb_reviews",
split=('train[:60%]', 'train[60%:]', 'test'),
as_supervised=True)
همونطوری که قبلاً هم اشاره کردیم ۵۰ درصد دادهها برای آموزش و ۵۰ درصد بقیه برای تست استفاده میشن. حالا از این ۵۰ درصد مربوط به دیتاست آموزش، ۴۰ درصدش برای validation و ۶۰ درصدش برای تست استفاده میشه.
دادههای آموزشی: ۱۵۰۰۰
دادههای اعتبارسنجی: ۱۰۰۰۰
دادههای آزمایشی: ۲۵۰۰۰
شناسایی و کشف داده
الآن بیاید یه نگاهی به دیتاست بندازیم تا متوجه بشیم که قراره با چه نوع دادههایی کار کنیم. در ادامه ۱۰ ردیف اول این دیتاست رو چاپ میکنیم:
train_examples_batch, train_labels_batch = next(iter(train_data.batch(10)))
train_examples_batch
حالا ۱۰ برچسب اول دیتاست رو چاپ میکنیم:
train_labels_batch
ساخت مدل طبقهبندی متن
برای ساخت مدل طبقهبندی متن با TensorFlow، از یه مدل آموزشدیده با عنوان TensorFlow Hub استفاده میکنیم. اول بیایید یه لایه کراس ایجاد کنیم که از مدل TensorFlow Hub برای جاسازی یا همون Embedding جملات استفاده میکنه و این لایه رو با چند نمونه ورودی امتحان میکنیم:
embedding = "https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1"
hub_layer = hub.KerasLayer(embedding, input_shape=[],
dtype=tf.string, trainable=True)
hub_layer(train_examples_batch[:3])
حالا دیگه نوبت اینه که مدل رو روی دیتاست کامل ایجاد کنیم:
model = tf.keras.Sequential()
model.add(hub_layer)
model.add(tf.keras.layers.Dense(16, activation='relu'))
model.add(tf.keras.layers.Dense(1))
model.summary()
کامپایل مدل
تو این بخش مدل رو با استفاده از تابع خطا loss functionو بهینهساز (optimizer) adam کامپایل میکنیم:
model.compile(optimizer='adam',
loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
metrics=['accuracy'])
آموزش مدل طبقهبندی متن
مدل رو برای ۲۰ دور (epoch) در یه مجموعه کوچک با ۵۱۲ نمونه آموزش میدیم. این ۲۰ بار تکرار برای همه نمونههای آموزشی (x_train و y_train) هست. در طول آموزش، میزان خطا و دقت ۱۰۰۰۰ نمونه مربوط به دادههای validation رو مشاهده کنید:
history = model.fit(train_data.shuffle(10000).batch(512),
epochs=20,
validation_data=validation_data.batch(512),
verbose=1)
ارزیابی مدل
حالا وقت اینه که ببینیم مدل طبقهبندی چطوری کار میکنه. به ازای دیتاست آموزشی دو مقدار خطا و دقت برگردونده میشه:
results = model.evaluate(test_data.batch(512), verbose=2)
for name, value in zip(model.metrics_names, results):
print("%s: %.3f" % (name, value))
خب همونطوری که تو خروجی هم مشاهده میکنین، میزان دقت مدل طبقهبندی متن ما به ۸۵ درصد که در کل این میزان دقت برای مدل خیلی خوبه. امیدواریم که از این مقاله آموزشی لذت برده باشین و یادگیری نحوه پیادهسازی مدل طبقهبندی متن براتون مفید واقع بشه.
برای هرگونه سوال در زمینه آموزش ها فقط کافیه روی لینک واتساپ یا تلگرام (در زیر همین پست) کلیک کنید. یا با شماره تماس بالای صفحه سایت تماس بگیرید.