کتاب «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافتههای پژوهشی» توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.
در جهان کنونی، هر روزه حجم زیادی از اطلاعات در قالب محتوای زبانی و مستندات متنی یا فایلهای صوتیِ گفتاری بر بستر وب و فضای مجازی عرضه میشود و به کمک ماشینهای هوشمند، پردازش شده در اختیار کاربران قرار میگیرد. تولید، مدیریت و به کارگیری این محتوا مستلزم بهرهمندی از دانش و فناوریهای مرتبط با پردازش زبان و گفتار است.
این کتاب به منظور ارائه گزارشی جامع و روزآمد از وضعیت پژوهشییِ جاری در حوزه پردازش متن و گفتار فارسی، به قلم جمعی از متخصصان این حوزه تدوین شده است.
کتاب دارای دو قسمت پردازش متن و پردازش گفتار است و هر قسمت با بخش مرور منابع و زیرساختهای دادهای آغاز میشود و پس از بررسی کارهای انجامشده در توسعه ابزارها و پردازشهای پایه و میانی، به بخش کاربردهای سطح بالاتر ختم میشود. هر بخش شامل چند فصل است و هر فصل، به شکل یک مقاله مروری نوشته شده که ضمن مطالعه کارهای گذشته، به تحلیل وضعیت حال میپردازد و با بیان مسائل باز حوزه، دریچهای به آینده میگشاید.
محتوای کتاب طیف گستردهای از مطالب، از به کارگیری و تطبیق آخرین دستاوردهای جهانی این حوزه بر روی زبان و گفتار فارسی تا ابداع روشهای خاص زبان فارسی و ازمبانی نظری تا نتایج کاربردی را پوشش میدهد. این کتاب میتواند منبع مناسبی برای تمام دانشجویان و محققانی باشد که در زمینه تولید منابع، ابزارها و برنامههای کاربردی در حوزه پردازش متن و گفتار فارسی، پژوهش و فعالیت میکنند.
این کتاب در شش فصل از جمله منابع و دادگان های متن محور و مدخل محور، ابزارها و پردازشهای پایه و میانی متن، تحلیل لغوی، نحوی و معنایی متون، حوزههای کاربردی پردازش متن، منابع و ابزارهای پردازش گفتار، حوزههای کاربردی پردازش گفتار مطالبی را ارائه داده است.
بخش اول کتاب که به منابع زبانی و دادگان های متن محور و مدخل محور در پردازش متن اختصاص یافته، شامل پنج فصل است. فصل اول نگاهی کلی به منابع زبانی و پیکرههای متنی و واژی دارد و جایی که به پیکرههای مورد توجه در فصول دیگر میرسد صرفا به آنها ارجاع میدهد تا از تکرار مطالب پرهیز شود. در واقع فصل اول علاوه بر معرفی حوزه کار، خود پیوند دهنده فصول دیگر و درآمدی برای ورود به فصول دو تا پنج نیز هست. پنج فصل نخست به معرفی دادگانها و منابع زبانی ای اختصاص داده شدهاند که در ادامه کتاب در فصول مختلف مورد استفاده قرار میگیرند. معرفی و تشریح پیکرده های متنی و واژی زبان فارسی که با نشانههای صرفی، نحوی سازهای و وابستگی، معنایی و گفتمانی غنی شدهاند، در این فصول انجام شده است.
در بخش دوم، ابزارها و پردازشهای پایه و میانی متن معرفی میشوند. پیش پردازشهای پایه که عمدتا برای هر کاربردی از متن استفاده میشوند، مانند واحدسازی، هنجارسازی، تحلیل ساختواژی، بنواژهیابی و ریشهیابی در فصل ششم مورد مطالعه قرار میگیرند. این فصل ضمن بیان مبانی نظری در این حوزه به بررسی و مقایسه ابزارهای پیش پردازش موجود برای زبان فارسی خواهد پرداخت.
فصول هفتم تا دوازدهم به میان ابزارها یا (پیش) پردازشهای میانی اختصاص دارند. منظور از (پیش) پردازشهای میانی پردازشهایی هستند که معمولا نه به عنوان یک کاربرد مستقل، بلکه به عنوان یک زیر وظیفه از وظایف یک برنامه کاربردی و در مراحل ابتدایی آن مورد استفاده قرار میگیرند، اما به اندازه پیش پردازشهای پایه، ابتدایی و سطح پایین نیستند و الزاماً در مراحل اولیه همه کاربردها، نیازی به آنها نیست.
بازشناسی موجودیتهای نامدار جهت شناسایی اسامی افراد، سازمانها، مکانها، زمانها، و مانند آن در متن، بازشناسی همه مرجعها به منظور تشخیص مرجع ضمایر و همچنین شناسایی کلمات مختلفی که در متن به یک موجودیت واحد اشاره دارند، شناسایی اصطلاحات چند کلمهای برای شناسایی اصطلاحات چند کلمهای برای شناسایی افعال و کلمات مرکب و چند واحدی و اصطلاحات و عبارات زبانی و در آخر رده بندی متون در این دسته قرار میگیرند. همچنین فرایندهایی مانند تعبیه کلمات و ساخت بردار جاسازی آنها در فضای برداری معنایی و استخراج مدل زبانی و همایندها نیز وظایفی هستند که در این بخش به آنها توجه میشود و برای بسیاری از کاربردهای ضروری اند.
در بخش سوم به تحلیلهای لغوی، نحوی و معنایی متون پرداخته شده و فصولی در مورد خطایابی متن، تجزیه سازهای و وابستگی جملات و معناشناسی رایانشی را دربرگرفته است. فصل سیزده که به خطایابی و استانداردسازی متون تخصیص یافته، به بررسی نظری و کاربردی خطایابی در زبان فارسی و معرفی و مقایسه سامانههای تهیه شده جهت ویرایش متون، استانداردسازی، خطایابی و اصلاح آنها میپردازد. فصول چهارده تا شانزده به تجزیه نحوی جملات فارسی اختصاص دارند و به ترتیب تجزیه سازهای، تجزیه سطحی (چانکینگ) و تجزیه وابستگی زبان را مورد مطالعه قرار میدهند. بررسی مبانی نظری و الگوریتمهای معرفی شده در سطح جهانی و نحوه انطباق آنها برای زبان فارسی از مباحث مورد بحث در این فصول هستند. در آخرین فصل از بخش سوم به تحلیلهای معنایی پرداخته میشود و طیف وسیعی از مباحث مطرح در معناشناسی رایانشی از بازنمایی معنایی و رفع ابهام معنایی کلمات تا شباهت سنجی معنایی کلمات و جملات و بازنمایی معنای سازههای بزرگتر از کلمه در دو حالت ترکیب پذیر و غیرترکیب پذیر را شامل میشود. مباحثی مثل دگرنویسی، شناسایی نقشهای موضوعی، استلزامات متنی و شناسایی استعاره در این فصل مورد بحث قرار میگیرند.
در نهایت در بخش چهارم، شش مهارت تخصصی زبان در چارچوب شش حوزه کاربردی خلاصه سازی متن، مشابهت یابی و کشف تقلب، احساس کاوی، ترجمه ماشینی، سامانههای پرسش و پاسخ و سامانههای جستجوگر معرفی میشوند.
بخش پنجم و ششم به پردازش گفتار اختصاص دارد. در این قسمت نیز سیر حرکت از دادگانها و منابع زبانی آغاز میشود و سپس ابزارهای پایه و میانی پردازش گفتار فارسی معرفی میشوند و در نهایت کاربردها معرفی خواهند شد. بنابراین بخش پنجم به معرفی پیکرهها و ابزارهای پایه پردازش گفتار فارسی اختصاص یافته است و سرانجام در بخش ششم فصول ۲۶ تا ۲۹ پردازشهای میانی در حوزه گفتار (که البته در اینجا خود میتوانند کاربرد نهایی نیز باشند) مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بازیابی اطلاعات گفتاری و بازشناسی گفتاری معرفی میشوند و در فصل آخر به چند مهارت تخصصی گفتاری زبان فارسی در چارچوب برنامههای کاربردی پردازش گفتار پرداخته میشود.
انتشارات سمت این کتاب را با قیمت ۳۹۳ هزار تومان عرضه کرده است.
نظر شما