پردازش زبان طبیعیمصورسازینمونه های کاربردی

سایت مرجع دانشگاه های ایران – نمونه ای کاربردی از پردازش متن

جای خالی کارهای حرفه ای تحلیل و تصویرسازی داده ها در کشور به خوبی احساس می شود و شما به ندرت در ارگانهای رسمی دولتی که داده های اصلی کشور را در اختیار دارند شاهد آمارهای عمومی دقیق و تصویر سازی درست آنها هستید. به عنوان مثال وارد سایت مرکز ملی آمار ایران که بشوید، هر داده ای را که بخواهید مشاهده کنید، باید فایل پی دی اف و یا اکسل آنرا مشاهد کنید بدون اینکه امکان بررسی و مشاهده آنلاین داده ها و تولید انواع گزارشات و خروجی ها از آنها فراهم باشد که البته باز هم جای شکر آن باقیست چون در سایت وزارت اقتصاد، گمرک، وزارت بهداشت، وزارت کشاورزی و … همین داده ها را هم نمی توانید مشاهده کنید. حتما سری به بخش اطلاعات آماری وزارت جهاد کشاورزی بزنید در صفحه اول این وزارت بزنید تا ببنید که چقدر علم داده در کشور مهجور واقع شده است و کارهای مثل مجلس گرافی و یا نمایش گرافیکی آیات قرآن، جزء معدود کارهای خوب کشور در این حوزه است که قبلا در این سایت به معرفی آنها پرداخته ایم .

با این مقدمه، از ابتدای آبان ماه، سایت سیویلیکا که مرجع مقالات و کنفرانس های کشور است یک سایت تحلیلی با نام UniRef‌ یا مرجع دانشگاه های ایران  راه انداخته است که براساس مقالات و داده های آنها و بخصوص با پردازش متن و کلمات کلیدی مقالات منشره دانشگاه های کشور در کنفرانس های داخلی، آنها را رتبه بندی کرده است و برای هر دانشگاه ، با نمودارهای مختلف، میزان مقالات، همکاری با سایر دانشگاه ها، کلمات کلیدی اصلی و موضوعات پژوهشی آن دانشگاه در سالهای مختلف و … را تصویر سازی کرده است .

2

در بخش تحلیل محتوی، هم به بررسی گرایشات اصلی پژوهشی کشور در سالهای اخیر پرداخته است که به عنوان نمونه اولیه از سایت، قابل قبول است هرچند شما بر اساس رشته یا دانشگاه یا شخص یا کنفرانس ، قادر به تحلیل اطلاعات نیستید و نیز اطلاعات آماری بسیار بیشتری را می توان از سایت سیویلیکا استخراج کرد که در این سایت جای خالی آن احساس می شود مثلاً برترین اساتید هر دانشگاه ، بیشترین مقالات ارجاع داده شده و مانند آن که امیدوارم در نسخه های آتی سایت بتوان شاهد تکمیل این پایگاه اینترنتی باشیم .

5

از طرفی الگوریتم رتبه بندی و تحلیل محتوی هم باید به صورت دقیق و شفاف در سایت آورده شود که بتوان به آمار و رتبه بندی آن ، یک استناد قابل اطمینان داشت.

گرافیک ، فونت ها و چینش عناصر در سایت اصلی سیویلیکا بسیار حرفه ای تر است و جا دارد در این سایت جانبی و تحلیلی هم به المان های بصری و زیبایی شناختی توجه بیشتری شود .

در هر صورت برای این دوستان آرزوی موفقیت می کنم و امیدوارم در آینده نزدیک شاهد رواج پایگاه و سرویسهای تحلیل داده بومی در کشور باشیم .

3

 

4

مجتبی بنائی

دانشجوی دکترای نرم‌افزار دانشگاه تهران (yun.ir/smbanaie)، مدرس دانشگاه و فعال در حوزه توسعه نرم‌افزار و مهندسی داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلان‌داده و زیرساخت‌های پردازش داده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژه‌های نرم‌افزاری و طراحی سامانه‌های مقیاس‌پذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

دکمه بازگشت به بالا