جدول محتوا
اکنون بیش از هر زمان دیگری، سازمانها شروع به استفاده گسترده از هوش مصنوعی (AI) و بهویژه یادگیری ماشینی (ML) برای حل چالشهای پیچیده دادهها و استخراج بینشها و ارزشهای جدید از حجم رو به افزایش اطلاعات ذخیرهشده در کسبوکار خود کردهاند.
نوشتهی گلین بودن، عضو SNIA Cloud Storage Technologies Initiative؛ معمار ارشد در حوزه هوش مصنوعی و علم داده در شرکت Hewlett Packard Enterprise.
ظهور «دانشمند داده» به عنوان یک حرفهی اصلی در سازمانهایی از هر اندازه، نشان میدهد که پذیرش و استفاده از این فناوری چقدر سریع بوده است. با این حال، هر فناوری جدیدی که با این سرعت رشد میکند، فرصت کافی برای ارزیابی تأثیرات آن بر زیرساختها و بهویژه محیطهای ذخیرهسازی داده فراهم نمیکند، جایی که بیشتر این اطلاعات ذخیره میشوند.
آیا هوش مصنوعی و یادگیری ماشینی گام بعدی در مسیر تکامل پس از دادهمارکتها و کلاندادهها هستند؟ آیا صرفاً مقیاس آنها بزرگتر شده؟ پاسخ منفی است. چالشهای جدیدی در حوزه ذخیرهسازی پدیدار شدهاند که مستقیماً به نحوه استفاده از دادهها ارتباط دارند.
بهطور سنتی، دادهها در هر مرحله از چرخه عمر خود تنها یک الگوی عملکردی خاص دارند. به عنوان مثال، دادههایی که بهتازگی ایجاد شدهاند، «داغ» هستند، زیرا بیشتر مورد استفاده قرار میگیرند، سپس با گذشت زمان «سرد» میشوند و در نهایت یا بایگانی شده یا حذف میشوند. این منجر به استفاده از معماریهای سلسلهمراتبی ذخیرهسازی میشود که در آن دادهها بین سطوح مختلف ذخیرهسازی جابهجا میشوند. اما با ظهور یادگیری ماشینی، دادهها در هر زمانی ممکن است به روشهای مختلف استفاده شوند. این یعنی نمیتوان بهراحتی برنامهریزی کرد که دادهها باید در کدام سطح ذخیرهسازی قرار بگیرند.
همچنین، اگر به نحوه ذخیرهسازی دادهها نگاه کنیم، دادهها ممکن است در قالبهای مختلفی ذخیره شوند: مثلاً فایلهای بدون ساختار، بلاکهای اطلاعاتی در یک ذخیرهساز شیء (object store) یا دادههای موجود در پایگاههای داده SQL. اگر ناگهان تصمیم بگیریم که یکی از این منابع داده برای ساخت مدل مورد نظر ما حیاتی است، تقاضا برای دسترسی به این دادهها تغییر میکند. در فرآیندهای یادگیری ماشینی، بهویژه در یادگیری نظارتشده، دادهها برای مراحل اعتبارسنجی و آزمایش، بارها و بارها پردازش میشوند. این الگوی دسترسی به دادهها و نوع دستورات ورودی/خروجی (I/O) ممکن است غیرقابل پیشبینی باشد، چراکه دادهها ممکن است به شیوههایی مورد استفاده قرار بگیرند که پیشتر معمول نبوده است. این امر میتواند تأخیر (latency) و بارگذاری بر روی منابع ذخیرهسازی را افزایش دهد و حتی بر عملکرد سایر سیستمهای تجاری که به آن دادهها وابسته هستند، تأثیر منفی بگذارد.
ما باید نه تنها به آرشیوهای دادههای موجود در سازمان، بلکه به دادههای جدیدی که در حال جمعآوری هستند و آنچه که فرآیندهای جدید ما نیاز دارند، نیز توجه کنیم. قبل از اینکه مدلهای یادگیری ماشینی روی یک منبع داده ورودی اعمال شوند، اغلب لازم است که دادهها به نحوی تغییر پیدا کنند تا با انتظارات و قالبهای مدلهای آموزشدیده سازگار شوند. همچنین ممکن است لازم باشد دادهها فیلتر شوند تا ویژگیها یا رکوردهایی که برای مدلها مفید نیستند حذف شوند. این مرحله، پیشپردازش یا مهندسی ویژگی نامیده میشود. دادههای پردازششده و تمیز برای استفاده در مرحله استنتاج (inference) آماده میشوند. این دادههای اصلاحشده ممکن است بسیار متفاوت از دادههای اصلی باشند، بنابراین ممکن است لازم باشد که هر دو نوع داده نگهداری شوند.
همانطور که میبینید، پروفایل دادهها بهطور قابل توجهی نسبت به سناریوی اولیه تغییر میکند و باید هم عملکرد دادهها هنگام پردازش و ذخیرهسازی و هم ظرفیت ذخیرهسازی برای قالبهای مختلف داده مورد بررسی قرار گیرد.
در مقیاسی که امروز شاهد آن هستیم، ادامه استفاده از سیستمهای ذخیرهسازی سنتی غیرعملی است. ما نیاز به تفکر جدیدی در مورد معماری ذخیرهسازی و دادهها داریم. باید بپذیریم که دادهها ممکن است بهطور همزمان اهداف متعددی داشته باشند که در زمان جمعآوری ناشناخته هستند و به دلیل ارزش بالقوه آنها، احتمالاً بسیاری از دادهها برای مدت زمان طولانیتری نگهداری خواهند شد.
تأثیر یادگیری ماشینی تنها محدود به مخازن داده فعال و خطوط پردازش داده نیست. همچنین نیاز به مدیریت دقیقتر در سرویسهای تبدیل داده و سیستمهای مدیریت مدل به وجود آمده است. باید مطمئن شویم که همه چیز در همگامسازی کامل باقی میماند و اگر تغییری در مدل ایجاد شود که به تغییرات بالادستی در دادهها نیاز دارد، باید این تغییرات بهدرستی در جریان زنده دادهها منعکس شوند. در غیر این صورت، ممکن است مدلی داشته باشیم که دادههای مورد انتظار خود را دریافت نکند و نتایج نادرستی ایجاد کند که ممکن است برای مدت طولانی بدون اینکه متوجه شویم، به خطا ادامه دهند.
نکته آخر این است که با تمام تغییرات فوق، همچنان وابستگی دادهها به سیستمهای تجاری موجود پابرجاست. این وابستگی تعیین میکند که آیا یک مهاجرت یا تبدیل دادهها عملی است یا خیر. بنابراین، ما نیاز به مکانیسمهایی داریم که بتوانیم منابع دادههای موجود در سازمان را شناسایی و به آنها متصل شویم، تا دادهها را به جریانهای جدید و اکوسیستم دادهای خود اضافه کنیم، بدون اینکه اختلالی در نقش فعلی آنها ایجاد شود.
هوش مصنوعی و یادگیری ماشینی فرصتهای بزرگی را برای سازمانها ایجاد میکنند، اما اگر بهدرستی درک نشوند و به چالشهای آنها پرداخته نشود، میتوانند مشکلات بزرگی را نیز به همراه داشته باشند.
درباره CSTI :
SNIA Cloud Storage Technologies Initiative (CSTI) متعهد به پذیرش، رشد و استانداردسازی ذخیرهسازی در زیرساختهای ابری است، از جمله خدمات داده، هماهنگسازی و مدیریت آن، و ارتقای قابلیت حمل داده در محیطهای چند ابری. برای کسب اطلاعات بیشتر در مورد فعالیتهای CSTI و نحوه عضویت، به snia.org/cloud مراجعه کنید.