بسامد تجمیع اطلاعات مدخل محور با تأکید بر پایگاه قاموس نور

حجت الاسلام توحیدی در ارائه گزارشی از پایگاه لغت قاموس نور به تبیین بسامد تجمیع اطلاعات مدخل محور با تأکید بر این پایگاه پرداخت.

به گزارش خبرگزاری شبستان از قم، حجت الاسلام «مسیح توحیدی» در نشست علمی مجازی «بسامد تجمیع اطلاعات مدخل محور با تأکید بر پایگاه قاموس نور» از سلسله نشست های همایش مجازی «علوم انسانی- اسلامی، پژوهش و فناوری» که پیش از ظهر امروز(یکشنبه 23 آذر) از سوی مرکز تحقیقات کامپیوتری علوم اسلامی نور برگزار شد، اظهار داشت: هدف پایگاه لغت «قاموس نور» در فاز اول، ارائه موتور جستجویی هوشمند در جهت ارانه بهترین و نزدیک ترین پاسخ نسبت به درخواست کاربر می باشد.

 

مدیر گروه ادبیات و متن کاوی مرکز تحقیقات کامپیوتری نور با بیان این که این خدمت نتیجه تلاش چندین ساله گروهی از پژوهشگران علوم اسلامی و همراهی جمعی از کارشناسان فنی در حوزه نرم افزار می باشد، گفت: برای تحقق این مهم انجام اموری ضروری به نظر رسید که از جمله آنها ساماندهی واژگان موجود در متون عربی بود.

 

وی اضافه کرد: از مجموع تقریبی دو ملیارد کلمه که در متون عربی در اختیار مرکز وجود دارد فهرست غیر تکراری مشتمل بر دو ملیون و هفتصد هزار کلمه تهیه شد و در ابزاری نسبت به تعیین وضعیت آنها از حیث ریشه و برچسب گذاری های متنوع اقدام شد؛ کار دوم ارزیابی منابع لغوی و استخراج مداخل و توصیفات از آنها بود که در این بخش نیز  به اموری از جمله شناسایی منابعی که از نظر ویرایشی قابلیت لازم را برای استخراج ماشینی مداخل و توصیفات داشتند، پرداختیم.

 

حجت الاسلام توحیدی عنوان کرد: استخراج ماشینی مداخل و توصیفات از منابع تعیین شده و بازبینی اطلاعات استخراج شده توسط محققین به منظور تکمیل یا اصلاح موارد از دیگر امور در این بخش محسوب می‌شود.

 

وی با بیان این که یکی از اصلی ترین اهداف تولید پایگاه لغت برقراری ارتباط هوشمند بین کلمات استعمال شده در متون یا محاورات (حدود دو ملیارد کلمه) و مداخل نماینده (در حدود یکصد هزار مدخل) بدون نیاز به تحلیل ذهنی کاربر بوده است، گفت: برای تحقق این مهم و ارائه بهترین پاسخ به درخواست کاربر چندین مرحله توسط موتور جستجوگر انجام می گیرد که از جمله آنها می‌توان به ارائه پاسخ بر اساس جستجوی عین کلمه درخواستی در بین مداخل نماینده، ارائه پاسخ بر اساس جستجوی در خواست کاربر پس از پیراسته سازی آن و ارائه پاسخ بر اساس شناسایی جایگاه کلمه درخواستی کاربر در درخت نظام اشتقاق و یافتن نزدیک ترین مدخل نماینده به این جایگاه اشاره کرد.

 

مدیر گروه ادبیات و متن کاوی مرکز تحقیقات کامپیوتری نور با اشاره به ارائه مداخل نماینده ای که در ریشه با درخواست کاربر مشابهت دارند، بیان داشت: موتور جستجو با انجام این مراحل مجموعه ای از پاسخ ها را ارائه می کند که مرتب سازی آنها باید بر اساس تقریب هر چه بیشتر به درخواست کاربر باشد، مرتب سازی پاسخ ها به مرور زمان و در طی فازهای عملیاتی توسعه پایگاه ارتقاء پیدا خواهد کرد.

 

وی یکی دیگر از ویژگی های این پایگاه را ساماندهی و تجمیع مداخل استخراج شده از منابع مختلف لغوی عنوان کرد و افزود: با وجود اینکه مشتقات دارای توصیف (مداخل) به طور طبیعی محدود می باشند و به طور تقریبی می توان آنها را در حدود یکصد هزار عدد تخمین زد ولی تنوع در تنظیم این مداخل از سوی مولفین باعث شده که تعداد این مداخل افزایش چند برابری پیدا کنند، به این خاطر لازم بود هماهنگی حداکثری جهت تجمیع این مداخل و مشخص کردن موارد مشابه صورت گیرد.

 

حجت الاسلام توحیدی در ادامه با بیان این که برای هر یک از مداخل دارای توصیف یک «مدخل نماینده» مشخص گردیده است، ابراز داشت: به این ترتیب توانستیم برای مجموع تقریبی هشتصد هزار مدخل استخراج شده از هفت کتاب لغوی تعداد تقریبی 120 هزار «مدخل نماینده» مشخص کنیم؛ با این کار بدون اینکه دخل و تصرفی در مداخل ارائه شده در کتب لغوی کرده باشیم یک دسته بندی جدید برای کاهش دادن تعداد پاسخ ها به کاربر صورت گرفت.

 

وی در تبیین ساماندهی توصیفات استخراج شده یادآور شد: با توجه به تشابه و تقارب لفظی توصیفات ذکر شده در بسیاری از موارد، لازم است هماهنگی و دسته‏بندی بین این توصیفات نیز صورت پذیرد که ان شاء الله در فاز‏های بعدی محقق خواهد شد؛ ویژگی دیگر این سایت برقراری ارتباط بین مداخل نماینده مترادف است به این معنا که در برخی از منابع، کلمات مترادف جمع آوری و دسته بندی شده اند.

 

مدیر گروه ادبیات و متن کاوی مرکز تحقیقات کامپیوتری نور ابراز داشت: از جمله مزیت های تعیین «مدخل نماینده» این است که توانستیم در پایگاه ذیل مداخل نماینده ای که دارای مترادف هستند ارتباطی بین مداخل نماینده مترادف در بخش «مترادفات» برقرار کنیم. البته استناد میزان صحت ترادف به منبعی است که در پایگاه معرفی شده است.

 

وی با اشاره به برقراری ارتباط بین مداخل نماینده هم موضوع در این پایگاه خاطرنشان ساخت: در برخی از منابع، مداخل به صورت موضوعی – و نه بر اساس ریشه- مرتب شده اند، لذا مداخلی که اکثرا از نظر ریشه با هم تناسبی ندارند ولی در ذیل یک موضوع مشخص با هم ارتباط دارند در اینگونه منابع ذکر شده اند؛ در پایگاه برای مداخل نماینده ای که دارای این نوع ارتباط با سایر مداخل هستند بخش «مرتبطات» وجود دارد که فهرست مداخل مرتبط و موضوع ارتباط در آن مشخص شده و کاربر می تواند از این طریق به سایر مداخل دستیابی پیدا کند.

 

حجت الاسلام توحیدی اضافه کرد: ویژگی دیگر این پایگاه برقراری ارتباط مداخل نماینده با احادیث است که در توضیح باید بگوییم برخی از منابع لغوی به توضیح کلمات مشکل در احادیث تحت عنوان «غریب الحدیث» پرداخته اند. در پایگاه اطلاعات این منابع به مداخل نماینده مربوط به آن متصل شده و در بخش «روایت» از آن مدخل قابل مشاهده می باشد.

 

وی  توصیف ریشه مداخل را ویژگی دیگر پایگاه قاموس نور عنوان کرد و افزود: به عنوان مثال در کتاب «معجم مقاییس اللغه» در هر بخش قبل از پرداختن به توصیف مداخل، توصیفی کلی از ریشه اصلی مداخل را ارائه می‌کند؛ در پایگاه در مقابل هر یک از مداخل ریشه دار، آن ریشه ذکر شده که از طریق آن به صفحه ریشه منتقل می شویم. در این صفحه ابتدا توصیف ریشه از کتاب «معجم مقاییس اللغه » آمده است و سپس فهرستی از مداخل ذیل آن ریشه ارائه می شود.

 

مدیر گروه ادبیات و متن کاوی مرکز تحقیقات کامپیوتری نور در پایان خاطرنشان ساخت: در فازهای بعدی از توسعه پایگاه علاوه بر موارد فوق اطلاعات جانبی دیگری نیز در اختیار کاربر قرار می گیرد که عبارت از متضادات مداخل، مداخل اضداد، آیات مرتبط با مداخل و اصطلاحات مرتبط با مداخل است.

کد خبر 1003244

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
captcha