آشنایی با استاندارد دادههای باز
حرکت به سمت یک جامعه پیشرو و توسعهیافته به ابزارهای مختلفی نیاز دارد که یکی از مهمترین آنها، شفافیت دادهها و آمار در حوزههای مختلف کشور است که به کمک آن، دانشمندان و برنامهریزان بتوانند با پایش و تحلیل درست این دادهها، راهکارهایی مناسب در حذف گلوگاهها و شناسایی نقاط ضعف و قوت جامعه، ارائه دهند. در این راستا، استاندارد دادههای باز در جهت گسترش فرهنگ به اشتراک گذاری دادهها توسط سازمانها و شرکتها، چندین سال است که در دنیای داده، رایج شده است. در این مقاله که توسط دکتر فرزاد مینویی در سایت وزین آنالیکا منتشر شده است، به بررسی این استاندارد میپردازیم.
مفهوم دادههای باز (
https://en.wikipedia.org/wiki/Open_dataOpen Data
) مبتنی بر این ایده است که برخی از دادهها باید بهصورت رایگان در اختیار همه قرار گیرد تا بتوانند آن را آنگونه که میخواهند استفاده، باز استفاده و منتشر کنند، بدون آنکه با محدودیت حق نشر (Copyright
)، حق اختراع (Patent
) و یا سایر محدودیتها مواجه شوند.
در تعریف بالا سه جنبه مهم پررنگ شده است:
- دسترسی: داده باید با هزینه معقول و بهسادگی در دسترسی باشد؛ در بهترین حالت از طریق بارگیری کردن از اینترنت بتوان آن را به دست آورد. همچنین داده باید بهگونهای ارائه شود که بتوان در آن تغییراتی ایجاد کرد.
- باز استفاده و بازنشر: داده باید تحت شرایطی منتشر شود که به افراد اجازه دهد آن را به شکل دلخواه استفاده و یا بازنشر کنند و یا بتوانند با سایر پایگاههای داده ترکیب کنند.
- مشارکت همگانی: دادهها باید برای همه گروهها و هر تلاشی در هر حوزهای آزاد باشند. برای مثال، نباید حق دسترسی تنها محدود به فعالیتهای غیرتجاری (Non-commercial) باشد؛ به این معنی که استفاده تجاری از دادهها محدود شود. و یا نباید استفاده از دادهها تنها برای اهداف خاصی مانند اهداف آموزشی آزاد باشد.
توجه شود در این مقاله هر جا صحبت از داده میکنم منظور “داده غیرشخصی” است؛ به این معنی که حاوی اطلاعاتی است که قابل تخصیص به فرد مشخصی نیست. شکل-۱ چارچوب موسسه دادههای باز ( Open Data Institute – ODI
) را در تعریف لایههای داده برحسب سطح دسترسی ارائه کرده است.
طیف دادهها در این نمودار شامل دادههای بسته ( Closed Data
)، دادههای اشتراکی ( Shared Data
) و دادههای باز ( Open Data
) است. برای نمونه داده فروش یک شرکت که در آن اسامی خریداران به همراه میزان خرید و نوع محصول خریداریشده آمده است، داده بسته محسوب و محرمانه تلقی میشود. دادههای تجمعی که درنتیجه یک تحقیق پزشکی روی گروهی از بیماران بهدستآمده، نمونهای از دادههای اشتراکی است. با فرض اینکه تحقیق با رعایت تمام اصول اخلاقی و محرمانگی انجام شده باشد، نتایج کلی تحقیق قابلانتشار است؛ برای مثال اینکه یک دارو روی گروهی از بیماران با یک ویژگی خاص اثر گذاشته یا نه. جدول زمانی ورود و خروج قطارها به ایستگاههای مختلف متروی تهران، نمونه یک داده باز میتواند باشد که باید بهراحتی در دسترس همگان قرار گیرد.
دلایل حرکت بهسوی دادههای باز
فلسفه اصلی دادههای باز مشابه سایر جنبشهای مبتنی بر حق دسترسی آزاد مانند نرمافزارهای متنباز ( Open Source
)، آموزش باز ( Open Education
) و … است. داده مانند هر کالای دیگری دارای مزایای بالقوهای است. مانند نفت، برای آنکه بتوان از مزایای بالقوه داده بهره برد، باید آن را پالایش کرد؛ بهخودیخود نمیتوان آن را بکار گرفت. زمانی که دادهها در دسترس عموم قرار میگیرند افراد، سازمانها و دانشمندان را قادر میسازد که به گونه جدید آنها را بازآفرینی کنند و در جهت نوآوری و خلق ارزش جدیدی آن را بکار گیرند.
در ادبیات این حوزه مزایای زیر را برای ایجاد پایگاههای داده باز برشمردند:
شفافیت: در حوزه حاکمیتی، انتشار دادهها نقش مهمی در کاهش فساد دارد. دادههای باز امکان بیشتری برای پایش فعالیتهای حاکمیتی میدهد؛ برای مثال اجازه میدهد تا نحوه هزینه کردن بودجه روشن و اثرات آن مشخص شود. همینطور شهروندان را تشویق میکند تا مشارکت بیشتری در نظارت بر حاکمیت داشته باشند. در حوزه شرکتی، دادههای باز در درجه اول به خود آن شرکت کمک میکند تا همه بخشهای سازمان از وجود دادهها باخبر شوند و فعالیتهای موازی و پرهزینه برای جمعآوری دادههایی که قبلاً توسط سازمان انجام شده، صورت نگیرد. این شفافیت بقیه شرکتها را هم تشویق (یا مجبور) خواهد کرد به سمت آزاد کردن دادههای خود پیش بروند و فرصتهای جدیدی از کنار هم قرار دادن پایگاههای دادههای کسبوکارهای مختلف ایجاد میشود. همچنین انتشار آزاد دادهها، نگاه مثبت جامعه و مطبوعات را به آن شرکت تقویت میکند.
نوآوری و خلق ارزش اقتصادی: مثالهای متنوعی وجود دارد که نشان میدهد انتشار دادهها و بازاستفاده از آنها میتواند نوآوری و فرصتهای اقتصادی جدیدی خلق کند. بهرهگیری از دادههای باز میتواند برای فهم رفتار مصرفکنندگان در بازار و خلق محصولات جدید دادهمحور استفاده شود. برای نمونه استارتاپ GeoLytix در انگلستان که متخصص استفاده از دادههای مکانی است، با استفاده از دادههای عمومی شهر لندن، خدماتی را ارائه میدهد که سایر کسبوکارها از آن بهره میبرند.
شرکت مشاوره مک کنزی (McKinsey & Company) در گزارشی اعلام کرده است که دادههای باز میتواند به ابزاری تبدیل شود که فاصله بین صنایع مختلف را کاهش و اجازه دهد که بین الگوهای سرآمد ( Best Practices
) در صنایع مختلف مقایسه صورت گیرد که به افزایش بهرهوری منجر میشود. این فرآیند درنهایت به سازمانها کمک میکند تا تصمیمگیری شهودی را با تصمیمگیری دادهمحور جایگزین کنند. برآورد این گزارش حاکی است دادههای باز این پتانسیل را دارد که بین ۳ تا ۵ تریلیون دلار در صنایع مختلف در آمریکا ارزش اقتصادی ایجاد کند (شکل-۲).
بهبود جامعه: دادههایی که توسط دولتها و یا شرکتها تولید میشود میتواند نقش مهمی در بهبود جامعه داشته باشد؛ برای مثال در حوزه برنامهریزی شهری یا دادن بازخورد درباره طرح و سیاستهای کلان جامعه بکار رود. به همین دلیل بود که در سال ۲۰۱۸، شرکتهای خودروسازی فورد ( Ford Motor Company
)، لیفت ( Lyft
) و اوبر ( Ube
r ) توافقی امضاء کردند تا دادههای خود را در قالب پلتفرمی بانام SharedStreets
به اشتراک بگذارند تا از آن برای مدیریت شهری استفاده شود.
دادههای باز در ایران
طبق قانون انتشار و دسترسی آزاد به اطلاعات، هر شخص ایرانی حق دسترسی به اطلاعات عمومی را دارد؛ مگر آنکه قانون، این دسترسی را منع کرده باشد و مؤسسات عمومی مکلفاند اطلاعات موضوع این قانون را در حداقل زمان ممکن و بدون تبعیض در دسترسی مردم قرار دهد. ابتکارهای عملی مانند سامانه ملی کاتالوگ و مجموعه دادههای باز و کاربردی (http://data.gov.ir) و سامانه دادهنمای تهران (http://data.tehran.ir) نمونهای از ابتکار عمل در این حوزه است. از دید نگارنده در زمانی که این مقاله نوشته میشود، سامانه دادهنمای تهران به فضای دادههای باز نزدیکتر است. از مزیتهای عمده این سامانه دسترسی به دادههای خام، قابلیت خوانش دادهها توسط ماشین ( Machine Readability
) و دادن دسترسی به توسعهدهندگان برای سوار کردن برنامه کامپیوتری بر روی دادههاست ( Application Programming Interface – API
). بهاینترتیب میتوان انتظار داشت در آینده کاربردهای تجاری و غیرانتفاعی را بر روی دادههای شهر تهران ببینیم.
باید توجه کرد نباید بحث حول دادههای باز را محدود به حاکمیت کرد. در چند وقت گذشته با مدیران شرکتهایی دیدار داشتم که این ایده به ذهنشان رسیده است برخی از دادههای خود را بهصورت آزاد در اختیار جامعه بگذارند. بهعنوان یک نمونه اخیراً، وبسایت دیوار دادههای نزدیک به ۱ میلیون از آگهی های تبلیغاتی منتشرشده در این پلتفورم را به صورت آزاد در اختیار عموم گذاشت. به نظر میرسد بهتدریج شرکتهای ایرانی در حال آزمایش کردن ایده دادههای باز و فهم مزیتهای آن هستند.
خوشبختانه فعالان حوزه دادههای باز مقید هستند که از روند فعالیتهای خود و نتایج بهدستآمده، گزارشهای دقیق و کاملی ارائه کنند. به همین دلیل در این خصوص مراجع بسیار خوبی توسط نهادهای دولتی و غیردولتی ازجمله بانک جهانی، دولت کانادا و اتحادیه اروپا وجود دارد. من به خوانندگان توصیه میکنم در صورت علاقه برای آشنایی بیشتر با مفاهیم دادههای باز به پیوندهایی که در بخش منابع قرار دادم، مراجعه کنند.
منابع:
Auer, S. R.; Bizer, C.; Kobilarov, G.; Lehmann, J.; Cyganiak, R.; Ives, Z. (۲۰۰۷). “DBpedia: A Nucleus for a Web of Open Data”. The Semantic Web. Lecture Notes in Computer Science. 4825. p. ۷۲۲٫
European Data Portal (2018), “Open Gold Data Book for Data Managers and Data Holders”, https://www.europeandataportal.eu/sites/default/files/european_data_portal_-_open_data_goldbook.pdf
Open Data Institute (2019),”How to Plan and Budget an Open Data Initiative”, https://theodi.org/article/how-to-plan-and-budget-an-open-data-initiative/
Open Data Institute (2019). “The Data Spectrum”, https://theodi.org/about-the-odi/the-data-spectrum
Smart Cities World (2018), “Ford, Uber and Lyft Band Together to Share Data”, https://www.smartcitiesworld.net/news/news/ford-uber-and-lyft-band-together-to-share-data-3398
Work Bank (2015),”Open Data Readiness Assessment Users’ Guide”, http://opendatatoolkit.worldbank.org/docs/odra/odra_v3.1_userguide-en.pdf
World Bank (2019), “Open Government Data Toolkit”, http://opendatatoolkit.worldbank.org