هوش مصنوعی در ایران | اولین رویداد Trace Way کوئرا20 دقیقه مطالعه

هدیه فنولوژی به شما!

رویداد Trace Way برای اولین بار توسط کوئرا، ۱۴ آذر ۹۸ در سالن آمفی‌تئاتر دانشکده انرژی دانشگاه صنعتی شریف با موضوع هوش مصنوعی و یادگیری ماشین برگزار شد. این رویداد تخصصی با هدف انتقال تجربه‌ی توسعه‌دهندگان ارشد کسب‌وکارها و شبکه‌سازی آن‌ها برگزار شد. در این رویداد شرکت‌های توسعه‌دهنده‌ی حرفه‌ای و موفق تجربیات کاری خود در به‌کارگیری هوش مصنوعی و یادگیری ماشین را با یکدیگر به اشتراک می‌گذارند. هم‌چنین فرصت خوبی برای مرتبط کردن متخصصان این حوزه با شرکت‌هایی که به دنبال نیروهایی زبده و حرفه‌ای هستند فراهم می‌شود. در ادامه‌ی این گزارش از تیم خبری فنولوژی، کاربردهای هوش مصنوعی در ایران و کسب‌وکارهای موفق این حوزه بررسی شده‌اند.

محتوا پنهان‌سازی

1. بخش‌های مختلف رویداد Trace Way

2. هوش مصنوعی در ایران | محمد باقر تبریزی؛ مدیرعامل کوئرا

3. هوش مصنوعی در ایران | کاربرد یادگیری ماشین در تبلیغات دیجیتال شرکت تپسل

3.1. مکانیزم Real-Time Bidding) RTB)

3.2. اصلی ترین موضوع، ارزش‌گذاری مالی تبلیغات

3.3. انواع روش‌های پیش‌بینی ارزش تبلیغات

3.4. هوش مصنوعی در ایران: ماجرای تپسل

4. هوش مصنوعی در ایران | پردازش زبان طبیعی (NLP) در کافه بازار

4.1. چت دیوار و یادگیری ماشین

4.2. روش یادگیری بدون ناظر (unsupervised learning)

4.3. یادگیری ماشین در پیشنهاد هوشمند (Smart Suggestion)

4.4. هدف‌گذاری آینده‌ی تیم هوش مصنوعی کافه بازار

5. هوش مصنوعی در ایران | داستان مسیریاب بلد

5.1. منبع ترافیک بلد خود کاربران بلد هستند

5.2. مشکل نویز در داده‌ها

5.3. تشخیص سرعت

5.4. چالش‌های بلد در تخمین سرعت و راه‌حل آن‌ها

5.5. پیش‌بینی ترافیک، گام‌ بعدی بلد

6. هوش مصنوعی در ایران | دیجی کالا

6.1. بعضی مشکلات و چالش‌های سیستم پیشنهاددهنده

7. هوش مصنوعی در سینما

8. هوش مصنوعی در واکاویک

9. هوش مصنوعی در ایران | ویرگول

بخش‌های مختلف رویداد Trace Way

رویداد Trace Way شامل معرفی فعالیت‌های کوئرا، ارائه‌‌های اصلی در ابتدای همایش،‌ ارائه‌‌های کوتاه در ادامه و شبکه‌سازی میان شرکت‌کنندگان بود. در ارائه‌های اصلی، افرادی از شرکت‌های دیجی‌کالا، بلد، کافه بازار و تپسل تجربه‌های ارزشمند کاری خود را در استفاده از هوش مصنوعی برای ارتقاء محصولات و فروش خود ارائه دادند. هم‌چنین در سخنرانی‌های کوتاه پنچ دقیقه‌ای شرکت‌های سلام سینما، واکاویک و ویرگول به معرفی سیستم یادگیری ماشین مورد استفاده خود پرداختند.

هوش مصنوعی در ایران | محمد باقر تبریزی؛ مدیرعامل کوئرا

کوئرا ۴ سال پیش در دانشگاه شریف از یک سیستم کمک آموزشی برنامه‌نویسی شروع شد. کار این سیستم تصحیح تمرینات و پروژه‌های برنامه‌نویسی دانشجویان بود که به صورت منبع باز روی GitHub وجود داشت. این سیستم کمک آموزشی ایده‌ی اولیه‌ی کوئرا بود که در ادامه با پیگیری فعالیت‌هایی از قبیل آموزش برنامه نویسی، برگزاری رقابت در این حوزه و استخدام نیروی ماهر توسعه پیدا کرد. اخیرا قسمت جدید کوئرا کالج با برگزاری آموزش‌های تعاملی با زمان کم و تمرینات زیاد در کنار برگزاری رویدادهایی نظیر رویداد Trace Way از جدیدترین فعالیت‌های کوئرا به حساب می‌آیند.

هوش مصنوعی در ایران | کاربرد یادگیری ماشین در تبلیغات دیجیتال شرکت تپسل

عباس حسینی، معاون فنی تپسل، ارائه‌ی خود را در موضوعات مفهوم تبلیغات دیجیتال، انواع تبلیغات دیجیتال، سازوکار RTB، تخمین قیمت پیشنهادی و در نهایت مسیر طی‌شده توسط تپسل در این راهبرد، پیش برد.

در گذشته تبلیغات با روش‌هایی مانند بنرهای سطح شهر انجام می‌شد؛ اما این نوع تبلیغات کارایی پایینی نسبت به قیمت پرداختی داشتند. امروزه با پیشرفت رسانه‌های دیجیتال، به سمت تبلیغات دیجیتال پیش می‌رویم. در تبلیغات دیجیتال پای محاسباتی به میان می‌آید که به عنوان یک واسط میان تبلیغ‌دهندگان (advertisers) و ناشرانِ (publishers) تبلیغات عمل می‌کند و با سازوکارهای مخصوص به خود سعی می‌کند در کم‌ترین زمان ممکن و با بالاترین دقت، تبلیغات مناسب را به سمع و بصر کاربران برساند.

تبلیغات دیجیتال به دو دسته‌ی مهم تقسیم بندی می‌شود: جست‌وجوی حمایت‌شده (Sponsored Search) و تبلیغات زمینه (Display Advertising).

جست‌وجوی حمایت‌شده، اولین مدل تبلیغاتی گوگل

در این نوع تبلیغات که هنوز هم طبق آمار عباس حسینی ۹۹ درصد عملکرد تبلیغاتی شرکت گوگل را تشکیل می‌دهد، وقتی شما عبارتی را در گوگل جست‌وجو می‌کنید مطابق با عبارت وارد شده تبلیغاتی از شرکت‌های مختلف نمایش داده می‌شود. هم‌چنین وقتی به دنبال برنامه‌ای در Google Play یا کافه بازار هستید متناسب با موضوع، تبلیغاتی از این نوع به نمایش گذاشته می‌شوند. رقابت اصلی بین تبلیغ‌دهندگان، روی کلیدواژه‌های حوزه‌ی رقابتی آن‌هاست و قیمت‌های پیشنهادی خود را برای این کلیدواژه‌ها مطرح می‌کنند. طبیعی است هر شرکتی توقع دارد با پرداخت پول مناسب‌تر، هنگام جست‌وجوی کاربران نام و نشان خودش را بالاتر و پررنگ‌تر مشاهده کند. وظیفه‌ی موتورهای جست‌وجو و واسطه‌ها این است که تبلیغات مناسب را با بیش‌ترین قیمت ارائه‌شده، منتشر کنند. ویژگی مهم این نوع تبلیغات مشخص کردن مقصد دقیق و نیاز کاربر توسط خود کاربر و به کمک کلیدواژه‌ای است که در موتور جست‌وجو سرچ می‌کند.

تبلیغات نمایشی (Display Advertising)

در مقایسه با تبلیغات حمایت شده، در بعضی سایت‌ها در کنار محتوای متنی و پس‌زمینه‌ی سایت شاهد تبلیغاتی هستیم که ظاهرا جزئی از فضای بومی سایت هستند؛ به این نوع تبلیغات،‌ تبلیغات نمایشی گفته می‌شود. هم‌چنین در برخی برنامه‌های گوشی اندروید و یا بازی‌های معروف، جهت کسب امتیاز یا سکه‌ی بیشتر به جای دریافت پول به شما پیشنهاد مشاهده‌ی تبلیغات داده می‌شود که مثال دیگری از تبلیغات نمایشی هستند.

در تبلیغات نمایشی، بر خلاف روش قبلی کاربر نیاز خود را به طور مستقیم و در موتور جست‌وجو ارائه نمی‌دهد و این وظیفه به دوش تامین کنندگان و الگوریتم‌های تقسیم‌بندی (Segmentation) می‌افتد. در واقع اینجا به جای جنگ بر روی کلیدواژه‌ها، تبلیغ‌دهندگان روی قسمت‌بندی‌های (segments) مختلف کاربران رقابت می‌کنند که بیش‌تر از روی سابقه‌ی آنان دریافت می‌شود. برای مثال مردان ۲۰ ساله‌ی علاقه‌مند به مسافرت یک نوع قسمت‌بندی از کاربران جامعه هدف است.

مکانیزم Real-Time Bidding) RTB)

در تبلیغات همواره، برخی شرکت‌ها حاضرند با پرداخت بهایی به شرکت دیگر، تبلیغات خود را به آنان بسپارند. اما آیا شرکت‌های تبلیغ‌کننده تمام رسانه‌ها را می‌شناسند و همه‌ی رسانه‌ها ظرفیت کار کردن با تعداد بی‌شمار این شرکت‌‌ها را دارند؟

در این شرایط ضرورت شکل‌گیری واسطه‌هایی برای هماهنگی و تسریع این فرایندها با استفاده از مکانیزم‌ RTB به وجود آمدند. در این فرایند DSPها (Demand Side Platforms) مسئول جمع‌آوری، دسته بندی و ارائه دادن درخواست‌های تبلیغ‌دهندگان در یک سو، و در سوی دیگر SSPها (Supply Side Platforms) مسئول جواب دادن به درخواست‌های DSPها و یافتن گزینه‌های خوب برای معرفی به رسانه‌ها هستند. در این بین مبدل تبلیغ (AD Exchange)، وظیفه‌ی به مزایده گذاشتن (Auctioning) و اختصاص دادن (Matching) نهایی درخواست‌ها را بر عهده دارد.

نکته‌ی بسیار مهم اینجاست که زمان کل این فرایند نباید بیش از ۱۰۰میلی ثانیه به طول انجامد. برای مثال شرکت Turn DSP در لحظه ۱.۶ میلیون درخواست را مدیریت می‌کند و گوگل ۴۰ هزار سرچ در ثانیه را انجام می‌دهد.

اصلی ترین موضوع، ارزش‌گذاری مالی تبلیغات

شرکت‌های تبلیغ‌کننده، امروزه بیشتر به تبلیغات CPA یا Cost Per Action که منجر به عملیات مستقیم سودمند می‌شوند علاقه‌مندند. و ترجیح می‌دهند این روش را جایگزین تبلیغاتی کنند که صرفا با مشاهده (CPM) یا کلیک (CPC) پول می‌دهند. شرکتی که قصد تبلیغ دارد باید مطمئن شود از نظر اقتصادی ضرر نکند و مبلغی که صرف تبلیغات کرده موجب فروش بیشتر آن شود. برای تحقق این نیاز لازم است شرکت‌ها ارزش مالی تبلیغات خود و میزان افزایش سود حاصل از این تبلیغ را دقیق بدانند که نقش یادگیری ماشین در اینجا شروع به درخشش می‌کند.

بخوانید: ۳ روش بهبود تجربه‌ی مشتریان با هوش مصنوعی

انواع روش‌های پیش‌بینی ارزش تبلیغات

روش‌های گوناگونی برای ارزش‌گذاری تبلیغات (Bid Estimation) وجود دارد که پایه‌ی همه‌ی آن‌ها مطالعات آماری است که نشان می‌دهد چند درصد احتمال دارد کاربر از تبلیغات آن‌ها استفاده کند. ابتدا تمام داده‌های آماری باید به شکل یک بردار برای پردازش تبدیل شوند. روش‌های آماری ساده‌تر، از سرعت بالاتر و کاربرد عمومی‌تری برخوردارند که البته باعث بروز خطاهایی از قبیل وابسته بودن به داده‌های گذشته و عدم تطبیق‌پذیری بالا هستند. در مقابل، روش‌هایی که از یادگیری ماشین بهره می‌برند بیشتر با سابقه و سلیقه‌ی کاربر منطبق هستند و شانس به نتیجه رسیدن آن‌ها تقویت می‌شود. چالش اصلی این روش کاهش زمان پاسخ‌گویی است زیرا با افزایش داده‌‌ها و ابعاد بردار ذکرشده و پیچیده شدن محاسبات، باید با روش‌های ارائه شده توسط دانشمندان داده و یادگیری ماشین زمان نتیجه‌گیری را در حد کاربردی کاهش دهیم. از مهم‌ترین این روش‌ها استفاده از عمل‌گرهایی است که ابعاد ماتریس داده‌ها را بدون تاثیر در نتیجه‌ی نهایی کاهش می‌دهند.

هوش مصنوعی در ایران: ماجرای تپسل

شرکت تپسل در همه‌ی زمینه‌های ذکر شده وارد عمل شده و فعالیت می‌کند. در زمینه‌ی جست‌وجوی حمایت شده، با کافه بازار همکاری صورت گرفته و در تبلیغات نمایشی در اکثر برنامه‌های تلفن همراه ایرانی و سایت‌های مختلفی که روزانه با آن‌ها سروکار دارید خدمات تپسل استفاده می‌شود. هم‌چنیین در حوزه تبلیغات شبکه‌های اجتماعی با برند تگرو فعالیت می‌کند که Micro Influencer Advertising ارائه می‌دهد.

شرکت تپسل در ابتدای کار خود فقط ۵۰۰ عملیات در روز را مدیریت می‌کرد و فقط تبلیغات ویدیویی در اپلیکیشن‌ها را شامل می‌شد که در ازای قرار دادن تبلیغ و کلیک گرفتن پول دریافت می‌کرد. در ادامه با توسعه فنی زیرساخت‌ها و توسعه راهبردی تپسل به تدریج به بیش از ۲۰۰ میلیون عملیات در روز رسید و الگوریتم تخمین قیمت آن کامل شد و ویژگی «تبلیغات به ازای کنش‌گری فعال» نیز به آن افزوده شد. علاوه بر آن زمان پاسخ الگوریتم‌های تپسل به استانداردهای جهانی رسید و تپسل به کارگزاری‌های خارج از کشور نیز متصل شد.

هوش مصنوعی در ایران | پردازش زبان طبیعی (NLP) در کافه بازار

علی چلمقانی، مدیر محصول هوش مصنوعی در کافه بازار، در مورد پردازش زبان طبیعی و استفاده‌ی آن در کافه بازار در قسمت گفت‌وگوی برنامه دیوار صحبت کرد. او لیسانس کامپیوتر و فوق لیسانس خود را در رشته زبان‌شناسی رایانشی در دانشگاه شریف به اتمام رساند و در شرکت آرمان رایان شروع به فعالیت در زمینه‌ی پردازش زبان کرد. سپس همکاری خود را با کافه بازار در موتور جست‌وجوی بازار و سپس در چت دیوار ادامه داد و در نهایت مدیر محصول تیم پردازش متن کافه بازار شد.

کافه بازار شامل سه محصول اصلی بازار، دیوار و بلد است که هرکدام مستقل فعالیت می‌کنند. و درکنار آن‌ها به تازگی تیمی تحت عنوان هوش مصنوعی شکل گرفته که وظیفه‌اش ابتدا تامین نیازها و چالش‌های ناتمام کافه بازار (تبدیل متن به گفتار،‌ گفتار به متن و زیرساخت یادگیری ماشین دسته بندی متن و …) است. قسمت داده‌ی کافه بازار از تیم بزرگ و حرفه‌ای شامل ۴۰ دانشمند داده و هوش مصنوعی و هم‌چنین حجم زیادی از داده شامل یک میلیارد برهم‌کنش کاربر با محصولات کافه بازار و ۱۰۰ میلیون داده‌ی متنی تشکیل می‌شود. در ادامه به موارد مهم ارزش آفرینی این تیم می‌پردازیم که از مهم‌ترین این موارد می‌توان به چت دیوار اشاره کرد.

چت دیوار و یادگیری ماشین

اوایل سال ۹۶ چت دیوار کلید خورد و در اواخر سال با عیب‌یابی نهایی به‌صورت رسمی عرضه شد و در سال ۹۷ حجم پیام‌های چت دیوار در عرض یک سال ۳۰ برابر شد. توجه دیوار، حفظ حریم خصوصی کاربران و هم‌چنین جلوگیری از مکالمات و گفت‌وگوهای مخرب و نامربوط در چت بود. در واقع هدف، اطلاع یافتن از میزان رضایت‌مندی و خدمت‌رسانی به کاربران بود. بهترین راه برای اطلاع یافتن از این رضایت‌مندی استفاده از یادگیری ماشین و پردازش زبان طبیعی است.

روش یادگیری بدون ناظر (unsupervised learning)

چلمقانی می‌گوید: «در ابتدا با حجم زیادی داده‌ی حاصل از گفت‌وگوهای کاربران بودیم که نمی‌توانستیم تشخیص دهیم موضوع بحث‌ آن‌ها چیست و برای حل این مشکل ناگزیر به استفاده از یادگیری بدون ناظر شدیم. با الگوریتم‌های یادگیری ماشین موفق شدیم داده‌ها را به ۲۰۰ دسته‌بندی مجزا تقسیم‌بندی کنیم که فضای گنگ صحبت‌ها ‌را برایمان واضح‌تر کرد. مهم‌ترین دسته‌بندی‌ها شامل موارد فنی (مثلا مشخصات فنی ماشین مورد معامله)، آدرس گرفتن، معامله نهایی و مزاحمت‌های ناخواسته در چت‌ها بود. با این روش توانستیم ۳۰ درصد مزاحمت‌های تشخیص‌داده‌شده را برطرف کنیم و راه ارزیابی ما کاهش میزان بلاک کردن کاربران در مکالمات است.»

یادگیری ماشین در پیشنهاد هوشمند (Smart Suggestion)

در حال حاضر پیشنهاد هوشمند چت دیوار فعال است و در حین بحث به کاربر جملات آماده‌ای را پیشنهاد می‌دهد. چلمقانی می‌گوید: «با پیشرفت پردازش زبان طبیعی به این فکر افتادیم که از آن برای هوشمندتر کردن پیشنهادات خود استفاده کنیم که حین بحث وضعیت فعلی را تشخیص دهد و وابسته به آن به کاربر جملات اختصاصی خود را پیشنهاد دهد؛ بخش مهم این کار، پیش‌بینی موضوع بعدی است که کاربر قصد مطرح کردن آن را دارد.»

هدف‌گذاری آینده‌ی تیم هوش مصنوعی کافه بازار

چلمقانی درباره‌ی آینده‌ی کافه بازار می‌گوید: «تصمیم گرفتیم خدمات خود را از طریق زیرساخت ابری کافه بازار با سه هدف اصلی کاهش هزینه، ایجاد مزیت رقابتی و قابلیت مقیاس پذیری بالا به سایر کسب‌وکارهایی که نیاز به هوش مصنوعی دارند ارائه دهیم؛ چراکه جذب و پرورش نیروی متخصص داده کار پرهزینه و سنگینی است که ممکن است هر شرکتی نتواند در ابتدای کار از پس آن برآید.»

هوش مصنوعی در ایران | داستان مسیریاب بلد

پیام آراسته، دانشمند داده در مسیریاب بلد، از داستان شروع و توسعه و پیشرفت بلد و ارتباط آن با هوش مصنوعی و یادگیری ماشین صحبت می‌کند. همه‌ی ما به ترافیک فکر کرده‌ایم؛ ایده‌ی اصلی بلد بر اساس ترافیک شکل گرفت. اولین استفاده‌ی بلد از ترافیک، نمایش ترافیک به صورت خطوط سبز، زرد و قرمز روی نقشه است. استفاده‌ی دوم، تخمین زمانی رسیدن شما از مبدا به مقصد است و استفاده‌ی سوم سوم، پیشنهاد بهترین مسیر طبق گراف‌های مسیریابی و یال‌های آن می‌باشد. در ادامه صحبت‌های آراسته را درمورد بلد می‌خوانیم.

منبع ترافیک بلد خود کاربران بلد هستند

بعضی از کاربران تصور می‌کنند بلد برای جمع‌آوری داده‌ی ترافیک از تصاویر ماهواره‌ای یا دوربین‌های سطح شهری پلیس راهبر استفاده می‌کند و یاحتی برخی تصور دارند افرادی استخدام شده‌اند که درسطح شهر اطلاعات ترافیک را گزارش کنند. در عمل هریک از این موارد مشکلاتی دارند که مانع جمع‌آوری و اندازه‌گیری دقیق ترافیک می‌شوند. داده‌های ماهواره‌ای در بهترین حالت یک هفته یک‌بار به‌روزرسانی می‌شوند و برای تشخیص ترافیک از معابر اصلی و فرعی نیاز به پردازش تصویر بسیار سنگینی است. به دوربین‌های پلیس راهبر نیز مجوز دسترسی نداریم و مجددا پردازش تصویر زیادی را طلب می‌کند.

اما بلد از داده‌های کاربران خود استفاده می‌کند؛ کاربرانی که با در دست داشتن برنامه بلد در جای جای شهر قدم می‌گذارند. اما چگونه اطلاعات از کاربر گرفته می‌شود؟ راه اول گزارش دادن کاربران از وضعیت ترافیکی موقعیت خود در اپلیکیشن است که منجر به به‌روزرسانی داده‌های بلد می‌شود. مشکل این روش، داوطلبانه بودن آن است؛ چراکه همه‌ی کاربران این کار را انجام نمی‌دهند و باعث ناقص بودن داده‌ها می‌شود.

بخوانید: GPT-3 چیست؟ نسخه‌ی جدید پردازش زبان طبیعی openAI را بشناسید

روشی که بلد استفاده می‌کند GPS کاربران است که از لحظه‌ی تصمیم حرکت شما از مبدا به مقصد فعال می‌شود. حریم خصوصی کاربران از ابتدا برای بلد اهمیت داشته‌است؛ لذا محل ذخیره‌سازی داده‌ی شخصی کاربران شامل نام، تلفن، ایمیل و … در یک دیتابیس کاملا مجزا از دیتابیس ترافیک آن‌هاست. در اصل با نصب بلد توسط هر کاربر، یک توکن تصادفی برای او درنظر گرفته می‌شود که توسط آن توکن سیگنال‌های GPS دریافت می‌شود و بلد نمی‌تواند تشخیص دهد این داده‌ متعلق به کدام کاربر است.

مشکل نویز در داده‌ها

یکی از چالش‌های پیش‌ رو در تحلیل داده، نویز داده‌ها بود. سگنال‌های GPS موقعیت مکانی کاربر را در مسیری نزدیک ولی متفاوت از مسیر اصلی جاده نشان می‌دهند که خود را بصورت نویز نمایش می‌دهد. برای حل این مشکل از تطابق نقشه (Map Matching) استفاده می‌کنیم که مسیر سیگنال‌های یافته‌شده را به نزدیک‌ترین و بهترین جاده‌ی در حال حرکت کاربر منطبق می‌کند. تطابق نقشه به شکل‌های آنلاین و آفلاین استفاده می‌شود و فرآیند نسبتا پیشرفته‌ای از نظر محاسباتی است.

تشخیص سرعت

برای تشخیص سرعت حرکت ماشین‌ها در یک مسیر و پیشنهاد سرعت مناسب به کاربر از داده‌های کاربران مختلف استفاده می‌کنیم. با رصد کردن مکان کاربر در یک بازه‌ی زمانی به راحتی سرعت کاربران در یک جاده محاسبه می‌شود اما چالش اصلی انتخاب مناسب‌ترین سرعت پیشنهادی است. اگر بخواهیم از میانگین سرعت‌‌ها استفاده کنیم، با داشتن داده‌های پرت مانند سرعت‌های بسیار بالا یا پایین میانگین عوض می‌شود و نشان‌گر مناسبی نیست. هم چنین اگر از داده‌ی وسط استفاده کنیم، کاربران ممکن است بتوانند با سرعت بیشتری نیز حرکت کنند و اگر از بزرگترین داده استفاده کنیم با خطاهایی از جمله خطای محاسبه GPS و بیشتر بودن سرعت ماشین‌های اورژانسی مواجه می‌شویم. برای حل این چالش سیستم ترافیک خود را به روشی جدیدی توسعه دادیم.

با دریافت سرعت جدید از کاربر ابتدا سعی در فیلتر کردن آن سرعت با دو شرط اصلی داریم. یکی قرار نداشتن سرعت در بیشترین بازه‌ی فراوانی و دوم عدم اطمینان از سرعت دریافتی است. در شرط اول سرعت‌های قبلی خود را روی نمودار توزیع فراوانی زنگوله‌ای شکلی تنظیم می‌کنیم که دارای میانگین و انحراف معیار است. بیش‌ترین فراوانی داده‌ها در قسمت میانی این نمودار است که ۶۸ درصد داده‌ها را شامل می‌شود. اگر سرعت جدید در این ۶۸ درصد نباشد فیلتر می‌شود. در شرط دوم که اطمینان (Confidence) است، دو پارامتر مهم تحت عنوان Recency (میزان ارسال سرعت به تازگی) و Frequency (تعداد سرعت‌های فرستاده شده در واحد زمان) سنجیده می‌شوند. اگر سرعتی فیلتر نشد و مجبور به به‌روزرسانی وضعیت ترافیکی شدیم طبق یک میانگین حرکتی آماری و با توجه به داده‌های قبلی و البته ضرایب تعدیل مختلف و پارامترهای ذکر شده، داده‌ی جدید را اعمال می‌کنیم.

چالش‌های بلد در تخمین سرعت و راه‌حل آن‌ها

پراکندگی (Sparsity) داده‌ها یکی از چالش‌هایی بود که در ابتدا برای حل آن، زمان دریافت سیگنال‌ها را از ۱۰ دقیقه به ۲۰ دقیقه افزایش دادیم. در ادامه با افزایش تعداد کاربران، خودبه‌خود مشکل پراکندگی تا حد زیادی برطرف شد. چالش دیگر نحوه‌ی اثر دادن گزارش مردم از وضعیت ترافیک سطح شهر در بلد بود. گزارش کاربران برای بازه‌های فراوانی کم‌تر نیز در نمودار زنگوله‌ای شکل اثرگذار می‌شود و به این شکل با سخت‌گیری کم‌تر، از این داده‌ها استفاده می‌شود. چالش دیگر تونل‌ها و یا دیگر مکان‌هایی بود که سیگنالی از آن‌ها دریافت نمی‌شد. برای حل این مشکل، با داشتن مسافت تونل و سرعت ابتدا و انتهای تونل یک سرعت میانگین تقریبی به دست می‌آید که مبنا قرار می‌گیرد.

پیش‌بینی ترافیک، گام‌ بعدی بلد

ترافیک ذاتا یک موجود زمانی مکانی است و شرایط مختلف زمانی و مکانی بر آینده‌ی ترافیک تاثیر زیادی می‌گذارد. برای پیش‌بینی ترافیک تصمیم گرفتیم از گراف شبکه‌های عصبی استفاده کنیم. در زمان‌های مختلف یک بردار متناظر با یک گراف، که نماینده‌ی ترافیک در آن لحظه است، وجود دارد. به این شکل مکان را با گراف و زمان را با بردار متناظر آن مدلسازی کردیم. با پیش‌بینی گراف n+1ام توسط بردار زمان متناظر می‌توان به این مهم دست پیدا کرد که امید‌واریم بتوانیم این تکنولوژی را در بلد پیاده‌سازی کنیم.

در آخر با این‌که ما در ابتدا قصد استفاده از شبکه‌های عصبی در پیش‌بینی ترافیک داشتیم اما واقعیت امر این‌جاست که بلد با مطالعات ساده‌ی آماری توانسته به بسیاری از نیازها و اهداف خود و کاربرانش برسد؛ لذا همیشه برای پیشبرد اهداف چنین شرکت‌هایی، نیاز به افتادن در مارپیچ تودرتوی یادگیری عمیق و الگوریتم‌های پیچیده‌ی هوش مصنوعی نیست!

هوش مصنوعی در ایران | دیجی کالا

حامد دهقانی، مهندس داده در دیجی‌کالا، از تاثیر هوش مصنوعی بر سیستم پیشنهاددهنده (Recommendation System) دیجی‌کالا می‌گوید. پلتفرم دیجی‌کالا شامل یک قسمت Supernova است که به صورت کلی اپلیکیشن‌ها و سایت‌های مختلف مثل دیجی‌کالا، دیجی‌استایل و … روی آن سوار هستند و حجم ترافیک بسیار زیادی از آن‌ها عبور می‌کند. برای مدیریت این حجم زیاد داده، نیاز به پلتفرمی داشتیم که بتوانیم تمام فرآیندهای کاربر را برای کاربردهایی که نیاز به داده‌ی لحظه‌ای (Real-time) دارند استفاده کنیم. داده‌های دیجی‌‌کالا به دو بخش تقسیم می‌شود؛ داده‌های کسب‌وکار، که در پس‌زمینه‌ی پلتفرم Supernova است، و داده‌های رفتاری (Behavioral) کاربران. برای ارائه‌ی سیستم پیشنهاد هوشمند باید این دو نوع داده را با هم تلفیق می‌کردیم تا به بینش‌ مفیدی از نیازهای کاربران برسیم.

سیستم پیشنهاددهنده دیجی‌کالا شامل ویژگی‌های شخصی‌سازی‌شده و غیرشخصی‌سازی‌شده است. تا الان دیجی‌کالا بیش‌تر به صورت پیشنهاد لحظه‌ای و یا دسته‌بندی‌های مرتبط پیشنهاد می‌کرد و از شرکت واسطه‌ای برای این منظور بهره می‌برد. استفاده از این شرکت واسطه معایب زیادی از جمله هزینه‌ی بسیار زیاد و مشکلات اجرایی آن در پلتفرم‌های مختف و عدم نظارت کامل بر رضایت‌مندی کاربر و عملکرد نهایی سیستم به همراه داشت. البته سیستم‌های پیشنهاددهنده‌ی منبع باز (Open Source) زیادی نیز وجود دارند که آن‌ها نیز محدودیت‌هایی از جمله عدم تطابق کامل با دیجی‌کالا و نیاز به بهبود الگوریتم‌ها و شخصی‌سازی آن‌ها دارند. به همین دلیل، دیجی‌کالا برای حذف شرکت واسطه و توسعه‌ی سیستم پیشنهاددهنده بومی و ارائه‌ی آن به صورت خدمات به سایر شرکت‌ها (as a service) دست به کار شد. این پلتفرم شامل دو بخش مجزا است؛ یکی جریان ورودی داده از سمت کاربران به Storage که به‌صورت آفلاین نیز کار می‌کند (بخش شخصی‌سازی نشده)، و دیگری قسمت Nearline است که باید به صورت لحظه‌ای (Real-time) کار کند (بخش شخصی‌سازی شده).

این سیستم پیشنهاددهنده، شامل دسته‌بندی‌های مختلفی مانند دسته‌‌ی پربازدید هر کاربر، دسته‌ی مورد علاقه‌ی هر کاربر، دسته‌ی برندهای پر بازدید کاربران و یا محصولات مرتبط جست‌وجوشده است. همان‌طور که اشاره شد بخشی از این دسته‌بندی‌ها به صورت آفلاین و شخصی‌سازی‌نشده و بخشی Real-time و شخصی‌سازی‌شده هستند.

بعضی مشکلات و چالش‌های سیستم پیشنهاددهنده

یکی از چالش‌های این سیستم وقتی پدید می‌آید که کاربران روی یک سری دسته‌بندی‌ها به تعداد بسیار بالایی کلیک می‌کنند و این نرخ بالای کلیک اگر به عنوان یک پارامتر مهم در ارزیابی آفلاین لحاظ شده باشد می‌تواند باعث بروز خطا شود. یکی از چالش‌های دیگر، تصمیم‌گیری در مورد حذف کالایی از لیست پیشنهادات یک کاربر پس از اضافه کردن آن به سبد خرید است. اگر کالایی مانند گوشی همراه خریداری شده باشد بهتر است دفعات بعدی از پیشنهادات کاربر حذف شده و در عوض لوازم جانبی آن محصول پیشنهاد شود اما اگر کالایی مانند شیر خشک و کالاهای مصرفی باشند، نباید از لیست پیشنهادات کاربر حذف شوند. تشخیص دادن و متمایز کردن این موارد استثنا از سیستم پیشنهاد عمومی برای هر دسته‌بندی مجزا، یکی از نکات کلیدی و مراحل پیشرفته‌ی این سیستم به حساب می‌آیند.

بخوانید: کاربرد هوش مصنوعی در معماری

شبکه سازی در رویداد Trace Way

یکی از اهداف مهم سیستم پیشنهاددهنده‌ی دیجی‌کالا، ارائه‌ی پیشنهاداتی به شما با توجه به الگوی برداشته‌شده از کاربری مشابه شما است. برای حل این موضوع، باید با چالش‌هایی از جمله میزان اهمیت داده‌های تاریخی و پیشینه‌ی کاربران توجه کنیم. هم‌چنین برای پیشنهاددادن محصول به کاربرانی که تازه وارد سایت می‌شوند و آن‌هایی که پس از مدتی طولانی وارد سایت می‌شوند نیز باید تمهیداتی اندیشه شود. مثلا آیا بهتر است برای کاربری که پس از مدتی طولانی وارد سایت شده‌است از داده‌های قدیمی او استفاده شود و یا با حذف سوابق، به عنوان یک کاربر جدید به او پیشنهاد داده شود.

در آخر دهقانی گفت: «در نهایت برای امتحان و ارزیابی سیستم جدید و بومی خود ابتدا در کنار سیستم خارجی واسطه، آن را به صورت A/B testing راه اندازی کردیم. با راه اندازی سیستم جدید شاهد عملکرد چشم‌گیری بودیم که حتی در مواردی از سیستم خارجی بهتر و بهینه‌تر اجرا شد. این عملکرد بهبود یافته از شخصی‌سازی بالا و دید بهتری که مهندسان ما از داده‌های کاربران خود داشتند نشات گرفته و ما پیش‌بینی این رشد عملکردی را داشتیم. خوشبختانه در مواردی نیز که با ترافیک سنگینی از داده مواجه شدیم مانند یلدای دیجی‌کالا، سیستم بومی و جدید ما موفقیت‌آمیز از پس مسئولیت خود بر آمد.»

هوش مصنوعی در سینما

هادی راسخ از شرکت سلام سینما، درباره‌ی اهداف شکل‌گیری سلام سینما و توسعه‌ی آن با هوش مصنوعی سخن گفت. سلام سینما با هدف اطلاع رسانی برای عاشقان دنیای فیلم و سینما شکل گرفت و می‌خواست مکانی برای یافتن، ارزیابی، و دسته‌بندی فیلم‌های سینما باشد تا افراد بتوانند به راحتی فیلم‌های مورد علاقه‌ی خود را پیدا کنند. اما مشکل این‌جاست که تعداد فیلم‌های ساخته شده در دنیا بسیار بالاست و سالیانه تقریبا ۲۰۰۰ فیلم ساخته می‌شود. اگر کسی قصد تماشای آن‌ها را داشته باشد باید روزی ۳۰ فیلم ببیند! این‌جا بحث سیستم‌های پیشنهاددهنده به میان می‌آید که به افراد بر حسب سلیقه‌ی آن‌ها فیلم پیشنهاد می‌کند. در ایران سالانه از فیلم‌های زیادی که اکران می‌شوند تعداد کمی فروش‌های بالای ۱۰ میلیارد تومان دارند و بسیاری از فیلم‌های بسیار موفق و خوب از چشم افراد دور می‌مانند. این نشان از کمبود آگاهی مردم از بسیاری از فیلم‌های خوب و باکیفیت ایرانی‌ است و نشان می‌دهد بیشتر بازاریابی سینمای ایران، هنوز به روش‌های سنتی مثل بیلبوردها و تبلیغاتی به این شکل انجام می‌شود.

هادی راسخ درمورد استفاده از هوش مصنوعی در سلام سینما می‌گوید: «ما برای شروع کار از سیستم پیشنهاددهنده منبع باز PredictionIO استفاده می‌کردیم که در ابتدا نیازهای سلام سینما را تا حد زیادی برطرف می‌کرد. در ادامه با توجه به بروز محدودیت‌هایی، تصمیم به توسعه‌ی سیستم پیشنهاددهنده بومی خود گرفتیم. در این سیستم از الگوریتم ALS که برگرفته از نسخه‌های PredictionIO است استفاده می‌شود. این سیستم نیز دارای محدودیت‌هایی از جمله تغییر سلیقه‌ی کاربران در طول زمان است. ما در حال توسعه‌ی الگوریتم‌های جدید برای بهبود این موارد هستیم.»

هوش مصنوعی در واکاویک

آرمان فاطمی از راه‌حل های هوش مصنوعی که واکاویک ارائه کرده‌است گفت. واکاویک تلاش می‌کند راهکارهای هوش مصنوعی را به صورت Software As a Service به کسب‌وکارها ارائه کند تا نیازی نباشد همه‌ی شرکت‌ها خودشان درگیر برطرف‌سازی نیازهای هوش مصنوعی خود شوند.

در چند سال اخیر، شرکت‌ها با نرخ بسیار زیادی برای تامین نیازهای خود به سمت راهکارهای هوش مصنوعی پیش رفته‌اند. تقریبا شرکتی نیست که ادعا کند هیچ گونه نیازی به هوش مصنوعی برای بهبود عملکرد خود ندارد. هوش مصنوعی در زمینه‌های گسترده‌ای از بازاریابی گرفته تا قیمت‌گذاری محصولات و حتی در منابع انسانی کاربرد دارد. اولین باری که کاربرد هوش مصنوعی در منابع انسانی توسط شرکتی به ما پیشنهاد شد، برای خودمان هم غیر منتظره بود. درخواست آن شرکت تحلیل رفتار، خلقیات و وضعیت روانی کارمندانش از روی توییت‌های سازمانی آن‌ها در محیط کار بود.

شرکت اوبر برای کارمندانش سیستمی به اسم «مایکل آنجلو» ارائه داده است که اجازه می‌دهد هر عضو بتواند هرجا نیاز داشت از راهکارهای هوش مصنوعی استفاده کند. این پلتفرم فقظ مخصوص کارمندان اوبر است؛ لذا برای ما قابل دسترسی نیست. اما احتمالا بسیار شخصی‌سازی‌شده عمل می‌کند و قابلیت انتخاب بین الگوریتم‌ها و دیتابیس‌های مختلف را دارد. برای تحقق چنین پلتفرمی نیاز به قابلیت اختصاص‌پذیری (Customization) بالایی است.

سوال مهم این‌جاست که آیا استفاده از داده‌های بزرگ لزوما برای دست‌یابی به چنین پلتفرمی مفید است؟ به نظر آرمان فاطمی لزوما اینطور نیست زیرا حجم زیاد داده چالش‌های زیادی مانند چالش ذخیره‌سازی دارد. همچنین تحلیل و دسته‌بندی و نگهداری از این داده‌های بزرگ می‌تواند کار پرهزینه و کم‌بازدهی باشد.

در کسب‌وکارها استفاده از داده‌های کوچک در بعضی موارد می‌تواند این مشکل را برطرف کند. پیشنهاد واکاویک این است که لزوما برای هر کاربردی که نیاز به هوش مصنوعی دارد نیاز به بومی‌سازی و درگیر شدن با چالش‌های داده‌های زیاد و الگوریتم‌های پیچیده‌ی هوش مصنوعی نیست و می‌توان از شرکت‌هایی که این خدمات را ارائه می‌دهند نیز کمک گرفت.

هوش مصنوعی در ایران | ویرگول

علی آجودانیان از مجموعه‌ی ویرگول درمورد استفاده‌ی هوش مصنوعی در ویرگول می‌گوید. مجموعه‌ی ویرگول سعی در خدمت‌رسانی و ارائه‌ی بهترین پیشنهادات در حوزه‌های محتوایی تکنولوژی برای عاشقان این زمینه‌ها دارد. ویرگول کار خود را از Recommendation System شروع کرد که با توجه به موضوع مطالب خوانده‌شده و یا نویسنده‌ی آن‌ها به کاربران پیشنهاداتی از جنس سلیقه‌ی کاربر داده می‌شود. موارد تاثیرگذار، درصد متن خوانده‌شده توسط کاربر، نظر دادن یا ندادن، لایک کردن،‌ نشان کردن و … بودند. به دلیل نواقص این طرح گام‌های بعدی، نشان دادن شبیه‌ترین متن به متن خوانده شده توسط کاربر در انتهای مقاله بود که این نیز خیلی جواب نداد. گویی آخر یک مسابقه فوتبال به کاربر پیشنهاد همان مسابقه با گوینده متفاوت داده می‌شد. برای حل این مشکلات مطالب را دسته‌بندی کردیم و از طریق این دسته‌بندی‌ها کاربر می‌توانست به زمینه‌های مورد علاقه‌اش دسترسی پیدا کند.

این روند به خوبی پیش می‌رفت تا این‌که دیدیم نکات ریزی که در ویرگول به چشم نمی‌آمد چقدر می‌تواند مفید باشد. برای مثال فالو کردن فرآیندی بود که تا پنج تا شش ماه پیش تفاوتی برای ویرگول نداشت اما به تازگی یافتیم که اگر مقاله‌ای در آخر کار فالو شود ارزشمندتر از مقاله‌ایست که در ابتدا و قبل از خواندن متن توسط کاربر فالو می‌شود. نهایتا اگر کاربر پس از مراجعه به پروفایل نویسنده آن را فالو کرده باشد از اهمیت دو چندان آن نویسنده خبر می‌دهد. به تازگی و به طور محدود در حال تست کردن سیستم یادگیری ماشین جدید خود هستیم که با توجه به نحوه‌ی فالو کردن کاربران به آن‌ها پیشنهاد می‌دهد. تا این‌جا از عملکرد سیستم راضی هستیم و ان‌شاالله به زودی این سیستم را به طور گسترده برای تمامی کاربران اجرایی می‌کنیم.

شبکه سازی در رویداد Trace Way

برچسب‌ها: پردازش زبان طبیعی, سیستم‌های پیشنهاددهنده, کاربردهای هوش مصنوعی, یادگیری ماشین

امیرحسین سلیمانی‌نسب

دانشجوی مهندسی پزشکی دانشگاه امیرکبیر - هم‌بنیان‌گذار فنولوژی

مطالب مشابه

بازخورد در متن

دیدن همه دیدگاه‌ها

هوش مصنوعی در ایران | اولین رویداد Trace Way کوئرا20 دقیقه مطالعه

بخش‌های مختلف رویداد Trace Way

هوش مصنوعی در ایران | محمد باقر تبریزی؛ مدیرعامل کوئرا