پنجشنبه ۴ اسفند ۱۴۰۱ - ۰۹:۰۰
«پردازش متن و گفتار فارسی» روانه بازار نشر شد

کتاب «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافته‌های پژوهشی» توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.

به گزارش خبرگزاری کتاب ایران (ایبنا)، «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافته‌های پژوهشی» با تحقیق و نگارش مهرنوش شمسی‌فرد عضو هیئت علمی دانشگاه شهید بهشتی و محمود بی‌جن‌خان عضو هیئت علمی دانشگاه تهران توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.

در جهان کنونی، هر روزه حجم زیادی از اطلاعات در قالب محتوای زبانی و مستندات متنی یا فایل‌های صوتیِ گفتاری بر بستر وب و فضای مجازی عرضه می‌شود و به کمک ماشین‌های هوشمند، پردازش شده در اختیار کاربران قرار می‌گیرد. تولید، مدیریت و به کارگیری این محتوا مستلزم بهره‌مندی از دانش و فناوری‌های مرتبط با پردازش زبان و گفتار است.

این کتاب به منظور ارائه گزارشی جامع و روزآمد از وضعیت پژوهشییِ جاری در حوزه پردازش متن و گفتار فارسی، به قلم جمعی از متخصصان این حوزه تدوین شده است.
کتاب دارای دو قسمت پردازش متن و پردازش گفتار است و هر قسمت با بخش مرور منابع و زیرساخت‌های داده‌ای آغاز می‌شود و پس از بررسی کارهای انجام‌شده در توسعه ابزارها و پردازش‌های پایه و میانی، به بخش کاربردهای سطح بالاتر ختم می‌شود. هر بخش شامل چند فصل است و هر فصل، به شکل یک مقاله مروری نوشته شده که ضمن مطالعه کارهای گذشته، به تحلیل وضعیت حال می‌پردازد و با بیان مسائل باز حوزه، دریچه‌ای به آینده می‌گشاید.

محتوای کتاب طیف گسترده‌ای از مطالب، از به کارگیری و تطبیق آخرین دستاوردهای جهانی این حوزه بر روی زبان و گفتار فارسی تا ابداع روش‌های خاص زبان فارسی و ازمبانی نظری تا نتایج کاربردی را پوشش می‌دهد. این کتاب می‌تواند منبع مناسبی برای تمام دانشجویان و محققانی باشد که در زمینه تولید منابع، ابزارها و برنامه‌های کاربردی در حوزه پردازش متن و گفتار فارسی، پژوهش و فعالیت می‌کنند.

این کتاب در شش فصل از جمله منابع و دادگان های متن محور و مدخل محور، ابزارها و پردازش‌های پایه و میانی متن، تحلیل لغوی، نحوی و معنایی متون، حوزه‌های کاربردی پردازش متن، منابع و ابزارهای پردازش گفتار، حوزه‌های کاربردی پردازش گفتار مطالبی را ارائه داده است.

بخش اول کتاب که به منابع زبانی و دادگان های متن محور و مدخل محور در پردازش متن اختصاص یافته، شامل پنج فصل است. فصل اول نگاهی کلی به منابع زبانی و پیکره‌های متنی و واژی دارد و جایی که به پیکره‌های مورد توجه در فصول دیگر می‌رسد صرفا به آنها ارجاع می‌دهد تا از تکرار مطالب پرهیز شود. در واقع فصل اول علاوه بر معرفی حوزه کار، خود پیوند دهنده فصول دیگر و درآمدی برای ورود به فصول دو تا پنج نیز هست. پنج فصل نخست به معرفی دادگان‌ها و منابع زبانی ای اختصاص داده شده‌اند که در ادامه کتاب در فصول مختلف مورد استفاده قرار می‌گیرند. معرفی و تشریح پیکرده های متنی و واژی زبان فارسی که با نشانه‌های صرفی، نحوی سازه‌ای و وابستگی، معنایی و گفتمانی غنی شده‌اند، در این فصول انجام شده است.

در بخش دوم، ابزارها و پردازش‌های پایه و میانی متن معرفی می‌شوند. پیش پردازش‌های پایه که عمدتا برای هر کاربردی از متن استفاده می‌شوند، مانند واحدسازی، هنجارسازی، تحلیل ساخت‌واژی، بن‌واژه‌یابی و ریشه‌یابی در فصل ششم مورد مطالعه قرار می‌گیرند. این فصل ضمن بیان مبانی نظری در این حوزه به بررسی و مقایسه ابزارهای پیش پردازش موجود برای زبان فارسی خواهد پرداخت.

فصول هفتم تا دوازدهم به میان ابزارها یا (پیش) پردازش‌های میانی اختصاص دارند. منظور از (پیش) پردازش‌های میانی پردازش‌هایی هستند که معمولا نه به عنوان یک کاربرد مستقل، بلکه به عنوان یک زیر وظیفه از وظایف یک برنامه کاربردی و در مراحل ابتدایی آن مورد استفاده قرار می‌گیرند، اما به اندازه پیش پردازش‌های پایه، ابتدایی و سطح پایین نیستند و الزاماً در مراحل اولیه همه کاربردها، نیازی به آنها نیست.

بازشناسی موجودیت‌های نامدار جهت شناسایی اسامی افراد، سازمان‌ها، مکان‌ها، زمان‌ها، و مانند آن در متن، بازشناسی همه مرجع‌ها به منظور تشخیص مرجع ضمایر و همچنین شناسایی کلمات مختلفی که در متن به یک موجودیت واحد اشاره دارند، شناسایی اصطلاحات چند کلمه‌ای برای شناسایی اصطلاحات چند کلمه‌ای برای شناسایی افعال و کلمات مرکب و چند واحدی و اصطلاحات و عبارات زبانی و در آخر رده بندی متون در این دسته قرار می‌گیرند. همچنین فرایندهایی مانند تعبیه کلمات و ساخت بردار جاسازی آنها در فضای برداری معنایی و استخراج مدل زبانی و همایندها نیز وظایفی هستند که در این بخش به آنها توجه می‌شود و برای بسیاری از کاربردهای ضروری اند.

در بخش سوم به تحلیل‌های لغوی، نحوی و معنایی متون پرداخته شده و فصولی در مورد خطایابی متن، تجزیه سازه‌ای و وابستگی جملات و معناشناسی رایانشی را دربرگرفته است. فصل سیزده که به خطایابی و استانداردسازی متون تخصیص یافته، به بررسی نظری و کاربردی خطایابی در زبان فارسی و معرفی و مقایسه سامانه‌های تهیه شده جهت ویرایش متون، استانداردسازی، خطایابی و اصلاح آنها می‌پردازد. فصول چهارده تا شانزده به تجزیه نحوی جملات فارسی اختصاص دارند و به ترتیب تجزیه سازه‌ای، تجزیه سطحی (چانکینگ) و تجزیه وابستگی زبان را مورد مطالعه قرار می‌دهند. بررسی مبانی نظری و الگوریتم‌های معرفی شده در سطح جهانی و نحوه انطباق آنها برای زبان فارسی از مباحث مورد بحث در این فصول هستند. در آخرین فصل از بخش سوم به تحلیل‌های معنایی پرداخته می‌شود و طیف وسیعی از مباحث مطرح در معناشناسی رایانشی از بازنمایی معنایی و رفع ابهام معنایی کلمات تا شباهت سنجی معنایی کلمات و جملات و بازنمایی معنای سازه‌های بزرگ‌تر از کلمه در دو حالت ترکیب پذیر و غیرترکیب پذیر را شامل می‌شود. مباحثی مثل دگرنویسی، شناسایی نقش‌های موضوعی، استلزامات متنی و شناسایی استعاره در این فصل مورد بحث قرار می‌گیرند.

در نهایت در بخش چهارم، شش مهارت تخصصی زبان در چارچوب شش حوزه کاربردی خلاصه سازی متن، مشابهت یابی و کشف تقلب، احساس کاوی، ترجمه ماشینی، سامانه‌های پرسش و پاسخ و سامانه‌های جستجوگر معرفی می‌شوند.

بخش پنجم و ششم به پردازش گفتار اختصاص دارد. در این قسمت نیز سیر حرکت از دادگان‌ها و منابع زبانی آغاز می‌شود و سپس ابزارهای پایه و میانی پردازش گفتار فارسی معرفی می‌شوند و در نهایت کاربردها معرفی خواهند شد. بنابراین بخش پنجم به معرفی پیکره‌ها و ابزارهای پایه پردازش گفتار فارسی اختصاص یافته است و سرانجام در بخش ششم فصول ۲۶ تا ۲۹ پردازش‌های میانی در حوزه گفتار (که البته در اینجا خود می‌توانند کاربرد نهایی نیز باشند) مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بازیابی اطلاعات گفتاری و بازشناسی گفتاری معرفی می‌شوند و در فصل آخر به چند مهارت تخصصی گفتاری زبان فارسی در چارچوب برنامه‌های کاربردی پردازش گفتار پرداخته می‌شود.

انتشارات سمت این کتاب را با قیمت ۳۹۳ هزار تومان عرضه کرده است.
 
 
 

نظر شما

شما در حال پاسخ به نظر «» هستید.

برگزیده

پربازدیدترین

تازه‌ها