استخراج اطلاعات متنی وب سایت ها با نرم افزار OutWit
بخش مهمی از داده های دنیای معاصر، در صفحات وب ذخیره شده است. اگر قصد بررسی محتوای یک سایت خبری یا مجموعه اطلاعات نظرات کاربران یک سایت فروش کالا و امثالهم را داشته باشید، روند معمول کار این است که دست به کد شوید و برنامه ای برای استخراج اطلاعات از این سایتها بنویسید، هر چند به لطف کتابخانه های مختلفی که امروزه برای این منظور نوشته شده است مانند Scrapy یا Beautiful Soup می توان به راحتی و در عرض چند ساعت یک کاوشگر وب سفارشی نوشت اما برای کارهایی که می خواهید تست اولیه را به سرعت روی مجموعه داده های متنی اعمال کنید یا دانش برنامه نویسی زیادی ندارید، می توانید از نرم افزارهای خاص این منظور استفاده کنید.
نرم افزاری که قصد معرفی آنرا دارم OutWit است که هم به صورت مستقل برای ویندوز و لینوکس قابل دانلود است و هم به عنوان یک افزونه روی فایر فاکس نصب می شود که توصیه می کنم از همین افزونه فایر فاکس آن استفاده کنید .
هنگامی که قصد واکشی اطلاعات یک سایت را دارید، ابتدا یک صفحه نمونه از اطلاعاتی که نیاز دارید را بارگذاری کنید و بعد وارد بخش Scraper آن شوید و یک Scraper یا استخراج کننده جدید بسازید. برای ساخت این استخراج کننده هم فیلدهایی که باید استخراج شوند را در جدول پایین تعریف کرده مثلاً برای اخبار شما نیاز به عنوان خبر، متن خبر، نویسنده، تاریخ نشر، برچسب ها و گروه خبری آن دارید.برای هر کدام از این اطلاعات، مکانی از صفحه وب را که در آن جا قرار گرفته اند را باید مشخص کنید که این کار با ذکر برچسب های ابتدایی و انتهایی آن بخش صورت می گیرد . مثلاً عنوان یک خبر در بین برچسب های <title> و </title> قرار گرفته است که در بخش بالایی صفحه قابل مشاهده است .
با اینکار شما Scraper یا استخراج کننده خاص خودتان را ساخته اید. حالا کافیست یک گروه خبری یا صفحه اول سایت را باز کنید و روی بخش لینک ها یا لیست ها کلیک کرده و صفحات خبری را با موس انتخاب کرده و با کلیک راست و انتخاب گزینه Auto Explorer Page و انتخاب گزینه بعدی Fast Scrape و انتخاب Scraper ایجاد شده ، فرآیند استخراج اطلاعات آنها به طور خودکار شروع می شود که البته در نسخه رایگان تا صد صفحه بیشتر قابل استخراج نیست و در پایان مرحله استخراج می توانید خروجی مورد نظر خود مانند خروجی متن یا اکسل را ایجاد کنید. می توانید برای هر گروه خبری این فرآیند را تکرار کنید .
آخرین نکته درباره OutWit این است که این سایت مجموعه نرم افزارهایی برای استخراج عکس و مستنداتی مانند پی دی اف هم دارد که می توانید بسته به نیاز خود از آنها نیز استفاده کنید.
پی نوشت :
اگر اندک آشنایی با پایتون دارید و قصد استخراج اطلاعات یک وب سایت به صورت حرفه ای را دارید، این مقاله سایت مهندسی داده را از دست ندهید .