دست به کد : یک پروژه عملی طراحی خطوط پردازش داده
چگونه کانالهای تلگرامی / دادههای توئیتر فارسی را رصد و پردازش کنیم ؟
برای پروژه پایانی درس کلانداده که برای دانشجویان تحصیلات تکمیلی دانشکده مهندسی برق و کامپیوتر دانشگاه تهران توسط دکتر اسدپور در ترم بهار ۱۴۰۰ ارائه شده بود، یک خط کامل پردازش داده برای تحلیل محتوای کانالهای پیامرسانها و یا توئیتهای فارسی طراحی کرده بودم که از دریافت داده و ارسال آنها به الستیک سرچ، پردازش اولیه و ذخیره تاریخچه هشتگها/کانالها در کاساندرا، ذخیره آمار لحظهای در ردیس و تحلیل آماری دادهها به کمک سوپرست/کلیکهوس تشکیل میشد و محوریت انتقال دادهها در آن با کافکا بود.
امروز که آخرین گروهها، پروژه خود را تحویل دادند، با کسب اجازه از دو گروه از این عزیزان، گزارش کامل آنها به همراه کدها و توضیحات، ضمیمه نمونه سوال شده و در اختیار علاقه مندان قرار گرفته است. (برای دریافت نسخه PDF، کلیک کنید)
امید است دوستانی که علاقهمند به مباحث زیرساختی و مهندسی داده هستند و نیاز به یک پروژه عملی دارند بتوانند از این گزارش و کدهای نوشته شده استفاده کنند.
منبع دریافت داده در پروژه اول، دادههای کانالهای تلگرامی و تحلیل آنهاست و در پروژه دوم از توئیتر برای دریافت و پردازش دادهها استفاده شده است.
سپاس بابت اشتراک چنین مطالب ارزشمندی