میدان تصادفی شرطی یک روش مدل سازی آماری است که در تشخیص الگو (Pattern Recognition) و به طور کلی یادگیری ماشین(Machine Learning) کاربرد دارد. امروزه این روش برای برچسب گذاری دنباله ها (Sequence Label) مثل تشخیص موجودیت های اسمی(Named Entity Recognition) و دیگر برچسب گذاری های دنباله ای مورد استفاده در پردازش زبان طبیعی (NLP) توانایی خود را ثابت کرده است.
برای آشنایی با این روش مدل سازی آماری لازم است با مفاهیم زیر آشنا شویم.
مدل آماری
یک مدل آماری به لحاظ ریاضی زوج مرتبی است شامل مشاهدات و توزیع آماری، به گونه ای که انتظار داریم آن توزیع آماری بتواند به بهترین شکل، داده های ما را بازنمایی کند. بعضی از مدل های آماری می توانند بر اساس توزیع خود داده های جدیدی تولید کنند اما برخی دیگر نمی توانند. این توانایی بستگی به ساختار مدل آماری دارد. مدل آماری قبل از آن که آماری باشد یک مدل است. پس برای بییان مفهوم مدل آماری باید کمی در مورد مفهوم مدل صحبت کنیم.
واقعا مدل چیست؟
"مدل، بازنمایی صوری یک یک نظریه است". البته شاید بتوان این تعریف را به فرضیه ها نیز تعمیم داد. مدل را می توان یک بازنمایی از یک حقیقت بیرونی دانست. ساختن مدل کاملا به دو عامل بستگی دارد: 1- رویکرد ما به مساله 2- ویژگی های مرتبط با مساله :
انتخاب رویکرد مناسب در حل مساله:
نگاه یک فیزیکدان به یک پدیده ی طبیعی با نگاه یک شیمیدان و همین طور با نگاه یک زیست شناس متفاوت است. یعنی هر کس با توجه به بینش شخصی خود یک بازنمایی (در این مثال بازنمایی فیزیکی یا شیمیایی یا زیست شناسی) در درون ذهن خود ایجاد می کند. حتی ممکن است کسی که در علوم متفاوت تبحر دارد می تواند هر سه مدل را در ذهن خود ایجاد کند. اما هر مدل ویژگی های مشخص خود را دارد.
طبیعی است که هر مدل تنها در دامنه ی مربوط به خود به می تواند به کار رود. مثلا تصویر فیزیکدان از درخت نمی تواند اتفاقات شیمیایی در گذشته را تحلیل و یا رخداد های شیمیایی در آینده را پیش بینی کند. پس ما قبل از حل مساله باید بدانیم که چه رویکردی برای حل این مساله مناسب است. البته این اتفاق جدیدی نیست چرا که ما در حل هر مساله ی ابتدا به دنبال داده ساختار (Data Structure) متناسب با آن می گردیم. ممکن است موجودیت های مساله را با یک ماتریس مدل کنیم یااین که از درخت سیاه و قرمز استفاده کنیم یا این که به یک متغیر صحیح بسنده کنیم. به هر حال هر کدام از این راه حل ها مبتنی بر دانش قبلی و رویکرد ما به مساله است.
ویژگی های مرتبط با مساله:
مسایل فیزیکی نمونه ای بارز از حذف متغیر های بی ربط است. مثلا در حرکت پرتابی ما اصلا کاری نداریم جنس چیزی که برتاب می شود از چیست. یا در کشش فنر ما کاری به جنس فنر یا تعداد حلقه های فنر نداریم و تنها یک ضریب را به نمایندگی از فنر می پذیریم. پیدا کردن ویژگی های مرتبط در بعضی مسائل تقریبا تمام حل مساله است. مخصوصا در تکنیک های یادگیری ماشین. البته در یادگیری ماشین عمدتا این دو مقوله(رویکردو حذف ویژگی) به صورت همزمان انجام می گیرد و پیدا کردن مرز مشخص بین آن دو کار آسانی نیست. اساسا الگوریتم و ساختار داده در هر برنامه کامپیوتری تا حد زیادی از روی یکدیگر قابل استنتاج اند و می توان با دانستن یکی از آن ها به کلیات دیگری دست پیدا کرد. مثلا کافی است به ما بگویند که در دستگاه نوبت دهی یک صف نانوایی از پشته (STACK) استفاده شده است. آن وقت شما به راحتی می گویید" چه کار احمقانه ای ! " چون افرادی که دیرتر می آیند زود تر نان می گیرند. یعنی شما با یک نگاه به داده ساختار تقریبا مطمئن می شوید که روند کار دستگاه مذکور چگونه است.
پس هر داده ساختاری الگوریتم خاص خود را می طلبد و بالعکس.
ادامه دارد...