مرکز تحقیقات کامپیوتری علوم اسلامی (نور)

ابزارهای اینترنتی

 

 

سامانه تشخیص روایات مشابه

سیستم های "مشابه‌یاب" از جمله سیستم‌هایی هستند که معادل دستی ندارند. به عبارت دیگر شناسایی میزان شباهت یک متن با حجم انبوهی از متون دیگر به صورت دستی تقریباً غیرممکن می باشد. از جمله کاربردهای "سامانه تشخیص ماشینی روایات مشابه" عبارتند از: 
• تشخیص زیر مجموعه بودن احادیث
• پیدا کردن متن و ترجمه
• شناسایی احادیث غیر تکراری
• شناسایی تعابیر مختلف اسناد
• شناسایی کتب مفقوده
• موضوعات مشابه
• میزان احادیث مشابه بین معصومین(علیهم السلام)
• شناسایی معصوم به عنوان راوی حدیث
اما سیستم "مشابه‌یاب" در متون غیرحدیثی در موضوعاتی چون متون تاریخی، فقهی، میزان وابستگی ترجمه های قرآن به هم و شناسایی سرقت های ادبی و علمی کاربرد فراوان دارند.

 

 

صرف ماشینی

«تحلیل‌گر صرفی نور» نرم‌افزاری است که برای مقاصد تحقیقاتی روی متون عربی طراحی و تولید شده است. این سامانه، پردازش صرفی کلمات متن را بر عهده دارد و می‌تواند در هر دو حالت بااعراب و یا بدون اعراب، تمام حالات صرفی معتبر را برای هر کلمه اعلام نماید. بدلیل اساسی بودن پردازش صرفی، شناسایی و تحلیل دقیق کلمات متن اهمیت بالایی دارد. به همین دلیل این سامانه در پردازش متون عربی نقش پایه‌ای دارد و زیربنای تعداد زیادی از کارهای تحقیقاتی دیگر قرار می‌گیرد. از جمله‌ی این پردازش‌ها می‌توان به برچسب‌گذاری کلمات متن، تحلیل نحوی، ریشه‌یابی تصریفی(پیراسته سازی)، شناسایی الگو، ترجمه‌ی ماشینی، خلاصه سازی و تبدیل متن به صوت و برعکس اشاره نمود.
 با توجه به موارد بیان شده اگر تحلیل صرفی را "پردازش متنی مادر" بنامیم گزاف نیست. مهمترین عملکردهای این تحلیل‌گر عبارتند از:  
• دسته بندی کلمات و مشخص نمودن نوع هر کدام از آن‌ها
• تعیین حدود هر کلمه
• شناسایی اجزای کلمات(تفکیک پیشوندها و پسوندها از هسته)
• بدست آوردن ریشه‌ی کلمات
• تشخیص غلط‌های متن(اعم از املایی و صرفی)
نکته‌ی قابل ذکر این است که این سامانه به صورت "Rule Base" طراحی شده و تا جایی که ممکن بوده کمتر از بانک‌های اطلاعاتی استفاده می‌کند که این باعث شده تا ویژگی قابل توجهی برای آن محسوب گردد و بتواند مستقل از موضوع و کلمات متن، دامنه‌ی گسترده ای از کلمات مختلف را تحلیل کند.

 

 

اعراب گذاری متون


نرم‌افزار "اعراب‌گذار" خودکار زبان عربی می‌تواند با دقت بالای ۹۰% متون عربی در حوزه علوم اسلامی را حرکه گذاری نماید. برای بعضی از کاربردها حرکت آخر کلمه(اعراب) اهمیت ویژه‌ای دارد و برای بعضی دیگر مثل "پیراسته‌سازی" ماشینی حائز اهمیت نیست.
دقت این سامانه بدون درنظرگرفتن حرکت آخر کلمه به بالای ۹۵% هم می‌رسد. برای پیاده سازی این نرم‌افزار از پیکره مدل زبانی ۴۰۰ جلد کتاب اعراب خورده مرکز تحقیقات کامپیوتری علوم اسلامی استفاده شده است.






 

 

برچسب گذاری


نرم‌افزار "برچسب‌گذاری ادات سخن" متون فارسی سامانه‌ای است که یکی از مهمترین پردازش‌های متون فارسی را بر عهده دارد. این برنامه در زمینه زبان‌‏شناسی محاسباتی(Computational Linguistic) با نام ابزار برچسب‏‌گذاری(Part Of Speech Tagging) مورد توجه قرار می‌گیرد. برچسب‌‏گذاری یکی از پایه‏‌ای‏‌ترین نیازهای پردازش هوشمند متون به حساب می‏‌آید که وابسته به زبان متن مورد پردازش است. این سامانه با کمک تکنیک‌های مدل مخفی مارکوف(Hidden Markov Model) تا دقت ۹۴.۳% برای کاربر به ارمغان می‌آورد. 
از مهمترین ویژگی‌های فنی این ابزار می‌توان به موارد زیر اشاره نمود:
• ورودی: انواع متون فارسی(از یک کلمه تا یک متن طولانی)
• خروجی: سری برچسب‌های متناظر با متن ورودی(هر کلمه دارای یک برچسب)
• مجموعه برچسب: ۴۰ گونه از گونه‌های صرفی کلمات فارسی(مانند اسم، فعل، حرف و ...)
• دقت برچسب‌گذاری: ۹۴.۳%
• سرعت برچسب‌گذاری: w/s 500 (کلمه بر ثانیه)

 

 

دسته بندی متون


"رده‌بندی" خودکار متون در حوزه پردازش زبان‌های طبیعی از جمله تحلیل‌های پراهمیت می‌باشد. به منظور درک بهتر از رده‌بندی متون می‌توان به روند شناسایی رده یا طبقه یک متن ناشناخته مثال زد. این نرم‌افزار با استفاده از الگوریتم K نزدیک‌ترین همسایه و دو معیار فاصله متون، عملیات خود را انجام می‌دهد.
در این نسخه سه رده بندی اصلی در زمینه "فقه اسلامی" با ۹ کلاس، "متون خبری فارسی" با ۷ کلاس و "متون خبری فارسی" با ۱۰ کلاس وجود دارد. رده بندی فقه اسلامی شامل کلاس‌های(ابواب) القصاص و الدیات، الحج، المکاسب، المیراث، النکاح، الصلاة، الطهارة و الزکوة می‌باشد. رده بندی متون خبری با ۷ کلاس نیز شامل کلاس‌های اقتصادی، اجتماعی، حوادث، خارجی، سیاسی، تکنولوژی و ورزشی می‌باشد. در رده بندی ۱۰ کلاسه متون خبری فارسی نیز کلاس‌های ادبی-هنری، اخبار کوتاه، بورس و بانک، اقتصاد جهانی، اجتماعی، علمی و فرهنگی، اقتصادی، گردش‌گری، گوناگون و حوادث وجود دارند.
کاربردهای این نرم‌افزار عبارتند از:
• رده‌بندی اتوماتیک مستندات متنی ناشناخته
• ترجمه ماشینی
• تبدیل نوشتار به گفتار
• نویسه‌خوان نوری (OCR)

 

 

خلاصه سازی متن


"خلاصه سازی" متن به فرایندی اطلاق می شود که طی آن یک متن بزرگ(ضمن رعایت شرایط خاصی) به متن کوچکتر تبدیل می شود. تاکنون رویکردهای مختلفی برای خلاصه سازی خودکار متون ارائه شده است. یکی از این رویکردها استفاده از "تئوری گراف" به منظور مدل نمودن متن و خلاصه سازی آن می باشد.
سامانه حاضر، جملات موجود در متن ورودی را در قالب یک گراف کامل مدل نموده و بهترین مسیر N نودی موجود در گراف را یافته و به عنوان خلاصه ارائه می‌کند. مراحل پیش پردازش، تحلیل، گزینش و پردازش نهایی تعبیه شده در این سامانه، باعث شده تا خروجی قابل قبولی در کمترین زمان ممکن تولید شود.
روش‌های بکار رفته در این سامانه، علاوه بر ارزیابی‌های دستی، توسط روش ارزیابی "Rouge" نیز مورد بررسی قرار گرفته است.

 

 

خوشه بندی


"خوشه‌بندی" از جمله تحلیل‌های پرکاربرد داده‌کاوی می‌باشد که هدف از آن دسته بندی موجودیت‌ها به گونه‌ای است که اشیاء درون هر گروه به هم شبیه بوده و اشیاء دو گروه مختلف نسبت به هم متفاوت باشند. این نرم‌افزار در رابطه با یکی از کاربردهای تکنیک‌های خوشه‌بندی برای پردازش‌های زبان طبیعی با نام "خوشه‌بندی" کلمات است. خوشه‌بندی كلمات در زمينه‌هاي گوناگونی از متن کاوی همچون مشابه‌يابی متون، ابهام‌زدایی، بازیابی اطلاعات، مدل‌سازی زبانی و رده‌بندی متون كاربرد دارد.
ارتباط میان کلمات یک گروه را می‌توان ارتباطات معنایی و یا ریشه‌ای دانست. ارتباط ریشه‌ای در واقع همان کلمات هم ریشه را نشان می‌دهد. برنامه‌ی ارائه شده در اینجا قابلیت دسته بندی ریشه‌ای کلمات هر زبانی را داراست. تکنیک مورد استفاده این سامانه، N-gramهای کاراکتری است که می‌توان به کمک آن کلمات مشابه از لحاظ ریشه را شناسایی نمود.

 

 

تجزیه و ترکیب قرآن


تحلیل صرفی و نحوی قرآن کریم