ابزارهای پردازش متن

هر فرآیند تجاری یا شخصی که مرتبط با متن یا صوت باشد می‌تواند از پردازش‌های زبانی منتفع شود. این حوزه پردازشی می‌تواند محتوای زبانی با درجات مختلف از نظر حجم، پیچیدگی زبانی، تعدد زبان و … را تحت پوشش خود قرار دهد.در آمارها اشاره می‌شود که بیش از ۸۰ درصد محتواهای متنی تجاری و شخصی در قالب متون بدون ساختار هستند. بنابراین برای استفاده از این حجم عظیم داده نیاز به جستجو یا استخراج اطلاعات داریم. از جمله بزرگترین و قدرتمندترین شرکت‌های فناوری اطلاعات در حوزه جستجو و استخراج اطلاعات مشغول فعالیت هستند.این شرکت‌ها از پردازش زبان طبیعی برای فهم متون و استخراج اطلاعات اشخاص، شرکت‌ها، مکان‌ها، زمان‌های خاص و … استفاده می‌کنند تا بتوانند سرویس جستجوی خود را بهینه کرده و اطلاعات بیشتری در مدت زمان کمتری در اختیار کاربران قرار دهند.به طور کلی در این دسته سرویس‌ها، بازیابی اطلاعات در خیل عظیمی از داده‌ها تسهیل می‌شود. این سرویس‌ها و محصولات مرتبط با آن برای سازمان‌ها و شرکت‌هایی مفید است که هم دادة عظیمی در اختیار دارند، هم جستجو، بازیابی و استخراج اطلاعات از نظر سرعت و دقت برای آنها مهم است. پرتال‌های تولید محتوا، سرویس‌های وبلاگ و شبکه‌های اجتماعی در وب  می‌توانند از این محصولات استفاده کنند. همچنین سازمان‌های آرشیو اسناد مانند سازمان اسناد و کتابخانه ملی، و زیرمجموعه‌های آن‌ها مانند هر نوع کتابخانه‌ای در کشور، سازمان پژوهش‌های مجلس شورای اسلامی و … می‌تواند این قابلیت‌ها بهره‌مند شوند.

در زیر لیستی از ابزارهای پردازش متن را مشاهده می‌کنید:

 
  عنوان ابزار   عنوان ابزار
۱ ریشه‌یاب ۸ برچسب زن اجزای سخن
۲ یکسان ساز ۹ تشخیص موجودیت‌های نامدار
۳ واحد ساز ۱۰ استخراج رابطه
۴ جمله یاب ۱۱ تشخیص هم ارجاعی‌ها
۵ تشخیص کلمات کلیدی ۱۲ استخراج نقل‌قول
۶ تحلیل صرفی ۱۳ قطعه بند متون
۷ تحلیل‌گر نحوی کلمات ۱۴ برچسب زن اجزای سخن

ابزارهای متن کاوی شامل ابزارهای زیر می باشد:

 
  عنوان ابزار
۱ شناسایی متون مشابه
۲ خوشه بندی جریانی
۳ جستجوی متن
۴ برچسب‌زنی موضوعی اسناد

 

دموی محصولات پردازش متن

با توجه به اهمیت ایجاد دمویی برای محصولات پردازش متن و آشنایی کاربران مختلف با ابزارهای متنوع پردازش متن نسخه آزمایشی(دموی) محصولات پردازش متن به آدرس ایجاد گردید. در این صفحه ابزارهای مختلفی مانند برچسب زن ادات سخن، تشخیص موجودیت های اسمی، تشخیص مرجع ضمایر و عبارات ارجاعی، استخراج کلمات کلیدی، استخراج عبارات اسمی، تشخیص دهنده کلمات غیر مفهومی، تقطیع گر متون، استخراج رابطه و تشخیص نقل قول قرار دارد و کاربران می‌توانند به صورت آنلاین از این ابزارها استفاده نمایند. این ابزارهای در آدرس ذیل قابل دسترسی می باشند:

 

matnafzar.ir

 

پیکره‌های تولیدشده زبان فارسی


با توجه به نبود پیکره‌های خاص در زبان فارسی تصمیم گرفتیم تا این کار را شروع کنیم و شرکتی پیشرو در این زمینه باشیم تا کمکی به علاقمندان به زبان فارسی و پردازش زبان طبیعی کرده باشیم. در این زمینه پیکره موجودیت‌های نامدار(اشخاص، مکان، سازمان، امکانات، رویداد و محصول) با حجم ۴۰۰،۰۰۰ کلمه با استفاده از داده‌های بیجن‌خان تولید شده است.