“دقت در هوش مصنوعی تابعی از در دسترس بودن داده های با کیفیت است … ساخت ابزارهای NLP برای زبانهای هندی کم منبع سخت است”


پردازش زبان طبیعی (NLP) بخشی جذاب از هوش مصنوعی است. مدیر تحقیقات IBM ، هند ، یکی از 12 آزمایشگاه تحقیقاتی IBM در جهان ، Gargi dasgupta صحبت می کند با چاندریما بانرجی در این مورد در متن زبان پیچیده کشور:

NLP چگونه کار می کند؟

پردازش زبان طبیعی (Natural Language Processing) توانایی رایانه یا ماشین در درک زبان انسان به هنگام نوشتن و ویژگی های مختلف آن است. ما NLP را به چهار مرحله تقسیم می کنیم: درک ، طبقه بندی ، بازیابی و تولید.

بنابراین ، وقتی می گویم که ‘سیب واقعاً برای سلامتی مفید است’ ، قوانین دستوری اولین سطح درک را تشکیل می دهند. دوم معنایی است. وقتی می گویم سیب ، به میوه فکر می کنی. در حدود 80٪ از اوقات ، ممکن است در مورد میوه صحبت کنم اما در 20٪ از زمان ، ممکن است در مورد شرکت صحبت کنم. اما بقیه جمله ، “واقعاً برای سلامتی مفید است” ، نشان می دهد این یک محصول مصرفی است و نه یک شرکت. این زیبایی درک معنایی است – اغلب اوقات نمی توان یک کلمه را به درستی درک کرد و مستقل از زمینه آن است.

بعد از این ، مرحله دوم طبقه بندی متن در ساختارهای سطح بالاتر – احساسات ، پاراگراف ها ، جداول ، نمودارها و غیره است. مرحله سوم بازیابی اسناد بر اساس س questionsالاتی است که کاربر می پرسد. و مرحله نهایی تولید خلاصه متن از اطلاعات موجود است.

آیا فراتر از انگلیسی کار می کند؟

ابزارهای NLP برای زبانهایی مانند انگلیسی ، فرانسوی ، آلمانی از داده های زیادی در مقالات خبری ، صفحات وب و غیره بهره مند می شوند. داده ها یک چالش بزرگ در ایجاد مدل های زبان برای زبان های دیگر از آسیا و آفریقا است. برای یادگیری به عنوان مثال ، یک مدل نیاز دارد که برای درک آن جملات زیادی به آن بدهید. اما در زبان های هندی ، بزرگترین مجموعه داده ها ممکن است چند هزار باشد. بنابراین ، ایجاد ابزارهای NLP برای زبانهای کم منبع که مجموعه داده های زیادی در دسترس نیست ، یک مشکل تحقیقاتی سخت است.

چگونه در این زمینه کار می کنید؟

اینجاست که تکنیک هایی مانند یادگیری انتقالی – از زبانهای با منبع بالا به یک زبان هدف با منابع کم استفاده می شود. کاری که ما انجام می دهیم این است که می توان گروه هایی از زبان ها را پیدا کرد که شبیه یکدیگر هستند و دارای ساختار جمله مشترک هستند. ما آنها را کنار هم قرار می دهیم و سعی می کنیم رفتار کلی را یاد بگیریم. و سپس ما با استفاده از کمی از داده ها ، مدلی را منتشر می کنیم که سعی در درک زبان لینگو دارد.

آیا همیشه دقیق است؟

دقت در هوش مصنوعی تابعی از در دسترس بودن داده های با کیفیت است. انتظار اینکه هوش مصنوعی 100٪ کار کند کاملاً غیرواقعی است. ما وقتی مدل هایی را دریافت می کنیم که حداکثر 70٪ درست باشند ، ما جشن می گیریم. یعنی هفت از ده بار ، من می فهمم چه می گویی. سه بار که من نمی فهمم ، من به شما پاسخ بدی می دهم و شما من را اصلاح می کنید ، می گویید “منظور من این نیست ، این منظور من بود به آن یادگیری بازخورد گفته می شود. این یک حلقه یادگیری مداوم ایجاد می کند. با گذشت زمان ، فاصله را کم می کنیم. بنابراین ، ما پیشرفت کرده ایم. اگر یادگیری انتقالی نداشتیم ، نمی توانستیم در درک زبانهای بومی پیشرفت کنیم.

چگونه زبان بومی پردازش می شود؟

پردازش زبان بومی به معنای درک ساختارهای زبان ، موجودات و روابط آنها ، مترادف ، متضاد ، افعال عبارتی ، احساسات کلی و غیره است. روش جایگزین ترجمه است. شما یک جمله هندی می گیرید ، آن را به انگلیسی ترجمه می کنید ، به انگلیسی پاسخ می دهید و سپس آن را به هندی ترجمه می کنید. این آدرس دهی به ترجمه به زبان مادری است. اما در IBM ، این چیزی نیست که ما در مورد آن صحبت می کنیم. ما در مورد درک واقعی زبان صحبت می کنیم – این به معنای ساختار جمله ، دستور زبان و سایر ظرایف آن است.

چالش های پردازش چند زبانه در کشوری مانند هند چیست؟

بیشتر گوینده ها وقتی صحبت می کنند زبانها را با هم مخلوط می کنند. این مخلوط کد نامیده می شود و چالش های اضافی درک را ایجاد می کند. یکی از راه های ممکن برای حل این مسئله از طریق سیگنال های گفتاری است. اگر من مدل های خوبی برای هندی و انگلیسی دارم و جمله ای را که دارای یک کلمه انگلیسی است تجزیه می کنم ، اولین روش من این است که ببینم آیا هر یک از مدل ها می گوید ، بله ، این کلمه را تشخیص می دهد. اگر یکی از آنها با اعتماد به نفس بالا این کار را انجام دهد ، من با آن کار می کنم. اگر هیچ کدام این کار را نکرد ، من قبل و بعد از کلمه نگاه می کنم.

در سوابق گفتاری مراقبت از مشتری ، تمام این دنیای هندی گفتاری و انگلیسی صحبت می شود. نمایندگان معمولاً به یک زبان پاسخ می دهند ، اما مشتریان با جملات ترکیبی صحبت می کنند. این به طور خودکار بین چندین زبان و داده های دارای برچسب (که برچسب های آن به درستی در آموزش یادگیری ماشین تعریف شده است) نقشه برداری ایجاد می کند.

اگر داده کافی نباشد چه می کنید؟

به هوش مصنوعی باید اعتماد کرد. از آنجا که ما همه چیز را در مورد داده های پشت آن ، نحوه تکامل داده ها می دانیم. اما گاهی اوقات ، داده ها فقط در آنجا نیستند. بنابراین ، ما یک قسمت کوچک از داده های کمی را درک می کنیم – مشخصه مورد نیاز برای این مدل هوش مصنوعی – و سپس تعداد بیشتری از این داده ها را تولید می کنیم. از آنجا که ما این کار را با استفاده از هوش مصنوعی انجام می دهیم ، داده هایی را شبیه دنیای واقعی شبیه سازی می کنیم.



لینک شده


سلب مسئولیت

نظرات بیان شده در بالا از نظر نویسنده است.



پایان مقاله



Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>