پیچند

فصل پنجم

پیچند

فصل پنجم

پیچند

And the end of all our exploring will be to arrive where we started
پیچند معادل فارسی تورنادو است.

آخرین نظرات
آنچه گذشت

۱۷۵۷- همبام

چهارشنبه, ۳۱ فروردين ۱۴۰۱، ۰۲:۲۹ ب.ظ

پستِ «پشتِ سرم» یادتونه؟ این پست ادامۀ اونه.

یه طرح یا پروژۀ پژوهشی بود که خیلی سال پیش من به‌عنوان علاقه‌مند! با اعضای تیمشون همکاری می‌کردم و در ابتدا یه عضو عادی بودم و سرگروه داشتم. کار سرگروه‌ها تأیید کار اعضا بود و خودشون کاری نمی‌کردن. مثلاً اعضا سیصد ساعت کار می‌کردن، سرگروه‌ها سه ساعت وقت می‌ذاشتن و این سیصد ساعت کارو چک می‌کردن و می‌گفتن فلان بخشش ایراد داره و اصلاح کن. به سرگروه‌ها دستمزدی تعلق نمی‌گرفت و دستمزد اعضای عادی هم بسیار کم بود. چرا؟ چون طرح برای دانشگاه بود و دانشگاه هیچ وقت بودجه نداره بیشتر از این بده. به‌مرور زمان وقتی قابلیت‌هامو کشف کردن، پیشنهاد دادن که سرگروه بشم. از اونجایی که تو این مدت تقریباً همۀ اعضای عادی انصراف داده بودن و بار پروژه رو دوش من بود، گفتم اگه من سرگروه بشم پس کارا رو کی انجام می‌ده؟ قبول نکردم. یه دلیل دیگۀ قبول نکردنم هم این بود که سرگروه‌ها دانشجوهای دکتری بودن و من اون موقع ارشد بود و خودم رو در سطح سرگروه نمی‌دیدم. نگاهی که سرگروه‌ها به اعضای عادی داشتن نگاه از بالا به پایینی بود. انگار که فقط سرگروه‌ها باسوادن و وقتشون باارزشه و بقیه یه مشت علافِ کم‌سوادن که محتاج اون مبلغ کمن و رزومه‌شون لنگ یه همچین طرحی. اینو وقتی فهمیدم که خودم هم سرگروه شدم و به گروه تلگرامیشون اضافه شدم و مکالماتشونو از اول تا آخر مرور کردم. وقتی منم دکتری قبول شدم، سرگروه‌ها داشتن دفاع می‌کردن و فرصت رسیدگی به پروژه رو نداشتن و دانشگاه هم خروجی کارو می‌خواست. وگرنه مجوز کارو لغو می‌کرد و بودجه‌شو پس می‌گرفت. این شد که قبول کردم سرگروه بشم و حداقل خودم کارای خودمو چک کنم. ولی به‌عنوان عضو عادی، همچنان داشتم کارا رو پیش می‌بردم. چون هنوز به اون مقداری که قولشو به دانشگاه داده بودن نرسیده بودیم. ماجرا وقتی هیجان‌انگیز شد که کارهایی که بقیۀ سرگروه‌ها تأیید کرده بودنو دادن به من که یه نگاهی بهشون بندازم و تأییدیۀ نهایی رو بدم که بفرستن برای مقامات بالاتر. مثلاً شدم سرگروه سرگروه‌ها. وقتی شروع کردم به چک کردن کارها، دود از کله‌م بلند شد. داغون بودن. افتضاح به‌معنای واقعی کلمه. امکانش نیست جزئیات کارو بگم ولی اون دو سه نفری که در جریان پروژه بودن و اینجا رو می‌خونن می‌دونن وقتی می‌گم افتضاح ینی چقدر افتضاح. یکی دو ماه تمام‌وقت و شبانه‌روزی روی کاراشون کار کردم! تا تونستم کم‌کاری و اشتباهات بقیه رو درست کنم. صد درصد هم اصلاح نشد، چون چیزی که دست من بود نتیجۀ هزاران ساعت کار بود و به‌تنهایی نمی‌تونستم تو اون مدت کم اصلاحشون کنم. این وسط با اینکه همۀ اشتباهات رو هم گزارش نمی‌کردم ولی یکی دو نفر از اون سرگروه‌ها که با بی‌دقتیشون به همون بودجۀ اندک و نیروی انسانی کممون ضرر مالی و روانی! زده بودن بلاکم کردن و هنوز از من بدشون میاد :| ولی دو سه نفرشونم اومدن تو خصوصی ازم تشکر کردن که طرحو نجات دادم :| به هر حال، اون سال خروجی مرحلۀ اول کارو تحویل دانشگاه دادیم و مجوزمون لغو نشد، ولی به این علت که دیگه پول نداشتن برای مرحلۀ دوم در اختیارمون بذارن کار متوقف شد و نمی‌دونم تا کی قراره متوقف بمونه. احتمالاً انتظار دارن یکی پیدا بشه در راه رضای خدا براشون کدِ صدمیلیونی بزنه و هیچی هم عایدش نشه جز عنوان همکاری با فلان طرح تو رزومه‌شون. چند بار پیشنهاد دادم که پولی که دانشگاه داده رو بهش برگردونیم و طرحو خصوصی کنیم یا یه سرمایه‌گذار خارجی که از خداشونه طرحو بخرن پیدا کنیم ولی قبول نمی‌کنن. دانشگاه انتظار داره با همون مبلغ کم طرحو راه بندازیم و پیش ببریم و نتیجه بگیریم و بعدشم همۀ سود کار مال خودش باشه. برای هر چیزی بودجه دارن، جز این چیزا. 

اون موقع که ما نصف مسیرو رفته بودیم، دانشگاه همدان هم مشابه این پروژه رو کلید زد. ولی نه به‌تنهایی. با همکاری و حمایت دانشگاه بامبرگ آلمان و نتیجه‌شم گرفت. همبام ترکیبِ همدان و بامبرگه. الان ما تو همون نصف مسیریم و اونا طرحی که بعد از ما شروع کرده بودنو نهایی کردن و امروز دارن ازش رونمایی می‌کنن:



شرکت تو این وبینار برای همه آزاده. اگر علاقه داشتید می‌تونید شرکت کنید. امروز، ساعت ۴ تا ۶ عصر

لینک ورود: https://meet.uok.ac.ir/ch/lan.fac

۰۱/۰۱/۳۱
پیچند (تورنادو، دُردانهٔ سابق، شباهنگ اسبق)

استاد شماره 17

ب هم‌دانشگاهی دکتری

نظرات (۱۱)

۳۱ فروردين ۰۱ ، ۱۶:۳۰ مهرداد ‏‏‏‏‏‏‏‏‏‏‏‏‏

منفعت این طرح برای زبان فارسی چیه؟ استفاده اختصاصی داره یا عمومی؟🤔🤔

همکارای یه پروژه باید همگام و همدل و آگاه به وظایف باشن تا یک طرح به نتیجه برسه.

پاسخ:
چون ممکنه سؤال بقیۀ دوستان هم باشه، کامل و مفصّل جواب می‌دم.

فرض کنید به‌عنوان یک پژوهشگر یا زبان‌شناس یا مترجم یا حتی به‌عنوان یک آدم کنجکاو می‌خوایم بدونیم در زبان چینی جملات پرسشی با جملات خبری چه فرقی دارن؟ یا در زبان هندی اول فاعل میاد بعد فعل یا اول فعل بعد فاعل؟ یا تو زبان عربی فلان فعل با مفعول میاد یا نه.

یه راهش اینه که بریم از گویشورهای اون زبان‌ها بپرسیم و آمار بگیریم.
یه راهشم اینه که کتابای دستورزبانشونو بررسی کنیم ببینم چی نوشته تو این کتابا.

ولی یه سری از زبان‌ها گویشور ندارن که ازشون بپرسیم (مُردن) 
یه سری از زبان‌ها هم کتاب دستور ندارن (نوشته نشده)

تازه اگه سؤالمون پیچیده‌تر باشه، گویشور نمی‌تونه جواب بده. مثلاً فرض کنید سؤالمون این باشه که در فلان زبان، صدای «ر» رو لرزشی تولید می‌کنیم یا زنشی یا ناسوده. من خودم به‌عنوان گویشور نمی‌دونم جواب این سؤالو. این‌جور مواقع از پیکره استفاده می‌کنن. پژوهشگر باید بره پیکره‌های اون زبانو بررسی کنه و به جواب برسه.

پیکره می‌تونه متنی باشه می‌تونه گفتاری باشه. الان پست‌های وبلاگ من می‌تونه یه پیکرۀ بسیار کوچیک باشه. ولی استاندارد نیست چون مال یه نفره. پیکرۀ زبان فلان باید مال همۀ گویشوران اون زبان باشه نه یه نفر. 
متن همۀ وبلاگ‌های بیانو اگه تو یه سایت جمع کنیم میشه یه پیکرۀ بهتر. ولی ایراد اینم اینه که اولاً یکدست نیست ثانیاً برای ده سال اخیره. منظورم از یکدستی اینه که یه نفر نیم‌فاصله رو رعایت کرده یه نفر نکرده و کلی نایدکستی دیگه.

فرض کنیم یکدستیشم درست کردیم و متن‌های چهل پنجاه سال اخیر رو هم جمع کردیم و کامل شد. دیگه چه نقصی داره؟
پیکره باید برچسب داشته باشه. ینی هر جمله‌ش کلمه‌به‌کلمه آوانویسی بشه، نقش واژه‌ها مشخص بشه، فحش‌ها برچسب بخوره، کلمات قرضی که از زبان دیگه وارد شدن برچسب بخورن، قسم‌ها و صدها برچسب دیگه. پیکره‌ای که برچسب نخوره به درد نمی‌خوره.
برای برچسب زدن نیاز به نرم‌افزار داریم. نرم‌افزاری که توش متنو بریزیم و روی واژه‌هاش برچسب بزنیم.
این مرحلۀ اوله. ما تا اینجا پیش رفتیم و برچسباشم زدیم.

در مرحلۀ دوم باید یه نرم‌افزار دیگه داشته باشیم که متن برچسب‌زده رو توش بریزیم و در اختیار کاربران قرار بدیم تا درخواست کنن که مثلاً صفت‌ها رو ببینن و نرم‌افزار صفت‌ها رو در اختیارشون قرار بده.

این برای پیکرۀ متنی بود. حالا اگه گفتاری باشه، اول باید تایپ بشه، استاندارد بشه و صورت رسمی و آوانویسیش نوشته باشه و بعدش برچسب و باقی ماجرا.

هر زبانی نیاز داره که پیکره داشته باشه. زبان انگلیسی پیکره‌های بسیار بزرگی داره، ولی فارسی نه. پیکره مثل یه استخره که توش متن می‌ریزن. فارسی الان یه چیزایی در حد لیوان داره تا استخر :| الان خودمون یا یه پژوهشگر خارجی بخواد روی فارسی تحقیق کنه پیکرۀ درست و حسابی‌ای نداریم در اختیارش قرار بدیم.
۳۱ فروردين ۰۱ ، ۱۷:۳۹ مهرداد ‏‏‏‏‏‏‏‏‏‏‏‏‏

فرقش با دیکشنری چیه؟ اونم تقریبا همین چیزا رو داره🤔

پاسخ:
دیکشنری واژه‌بنیاده، پیکره متن‌بنیاد.
دیکشنری نهایتش چندهزار واژه‌ست ولی این میلیون‌ها جمله رو دربرداره.
توی دیکشنری هر کلمه یه بار میاد، ولی تو پیکره ممکنه صدها بار بیاد و اتفاقاً ممکنه موضوع پژوهش ما این باشه که کدوم کلمه‌ها تو فلان زبان بیشتر به کار می‌رن و کدوم کلمه‌ها کمتر. اون موقع پیکره به دردمون می‌خوره. یا مثلاً اگه بخوایم ترتیب اجزای جمله رو در زبان‌های مختلف بررسی کنیم (اینکه اول فعل میاد بعد فاعل بعد مفعول و...)، برای چنین بررسی‌ای ما به یه استخر بزرگ که پر از جمله باشه نیاز داریم.

برای نوشتن خود دیکشنری هم، از پیکره استفاده میشه. مثلاً دهخدا وقتی داشت لغت‌نامه می‌نوشت، پیکره‌ش کتاب‌های ادبی قدیمی بود. از توی اونا کلمات و معنیاشونو پیدا می‌کرد. پس مجموعۀ کتاب‌ها هم می‌تونه یه پیکره باشه.
برای زبان فارسی پیکرۀ روزنامۀ همشهری رو هم داریم. از یه سالی همۀ شماره‌های روزنامه رو جمع کردن و اسمشو گذاشتن پیکرۀ همشهری. ولی به درد من نخورده تا حالا. مثلاً بخوام فحش‌های فارسی رو پیدا کنم، این پیکره به دردم نمی‌خوره. ولی پیکرۀ خودمون پر از فحش بود :|
۳۱ فروردين ۰۱ ، ۱۸:۰۰ مهرداد ‏‏‏‏‏‏‏‏‏‏‏‏‏

متوجه شدم. عالی بود.

پس پیکره یه استخر استاندارد پر از اطلاعات هست که هر پژوهشگری بنا به نیازش از اون اطلاعات استفاده می‌کنه. و این نرم‌افزار که تولید شده در واقع کار پژوهشگر رو تسهیل کرده.

سپاس.

پاسخ:
بله دقیقاً
پیکره‌ها به یه نرم‌افزار به اسم تگر نیاز دارن برای تگ یا برچسب زدن
و به یه نرم‌افزار به اسم سرچ که کاربر (پژوهشگر) از اون طریق چیزایی که می‌خواد رو پیدا کنه.
نرم‌افزار تگر ما رو یکی از دخترای شریفی نوشت و رایگان! در اختیارمون گذاشت. البته کم‌ایراد هم نبود. چون پولی هم نگرفته بود درستش نکرد. احتمالاً منتظرن یه نفرم سرچو براشون بنویسه و پولی هم نگیره

ببین من 50 سال سابقه ی برنامه نویسی یا مدیریت توی گوگل ندارم ولی پروژه تون به نظر میاد درست مدیریت نشده . 

 

شاید مدیرهاتون فکر کنن یک کد ناقص بهتر از هیچیه و هزینه ی رفع مشکلاتش کمتره ولی اینطور نیست . نباید اجازه بدید کسی کار ناقص انجام بده حتی اگر رایگان باشه چون رفع مشکل کردن اون کار ناقص و رایگان در بسیاری موارد زمان و هزینه ی بیشتری نیاز داره نسبت به حالتی که  کار از اول کامل انجام شده . 

 

 الان هم اگر دانشگاه همدان این نرم افزار ها رو داره بهتره ازشون بخرید و چرخ رو از اول اختراع نکنید  .

 

در غیر این صورت یک مدیر آی تی رو با تیم برنامه نویسش استخدام کنید و کل کار رو به خودشون بسپارید و اون کد ناقص رو کلا نشون ندید . 

 

راه آخرش هم اینه خودت روی کد کار کنی . سعی کن مشابه خارجی این پروژه رو پیدا کنی و خودت کد رو بنویسی ولی مشکلش اینه که اگر این کار رو بکنی باید تا آخر انجامش بدی . مشکلاتش رو رفع کنی . اگر نیمه کاره ولش کنی هزینه ی درست کردنش معمولا به صرفه نیست . 

 

 

پاسخ:
قطعاً درست مدیریت نشده. این پروژه علاوه بر یه تیم متخصص زبان‌شناس به تیم برنامه‌نویس هم نیاز داشت. بخش نرم‌افزاری و برنامه‌نویسی تگ رو یه دانشجوی ارشد کامپیوتر راه انداخت ولی بعدش دکتراشم نصفه گذاشت رفت خارج! ما موندیم و نرم‌افزاری که حتی یه نسخه از سورسشم در اختیارمون نذاشت که اصلاحش کنیم. هر چی که بود رو گذاشته تو لپ‌تاپ پروژه و رفته. لپ‌تاپ هم دست استادمونه. ینی اگه بلایی سر لپ‌تاپ بیاد، نرم‌افزار تگر هم نابود میشه. بدون هیچ بکاپی.
حالا ما بیست ساعت داده داریم که در ابتدای مرحلهٔ دوم متوقف شده و همدان دو ساعت داده داره که مرحلهٔ دوم رو تا ته رفته. بعیده که نرم‌افزارشو به ما بفروشه چون در این صورت ما ازش جلو می‌زنیم! شراکت هم اگر بخوایم بکنیم ما ضرر می‌کنیم چون همین‌جوریم ما به‌لحاظ محتوایی و تعداد تگ‌هایی که زدیم خیلی خیلی جلوتر و پیشرفته‌تریم. الان ما فقط لنگ نرم‌افزار سرچیم. شاید باورت نشه ولی من برای مقالهٔ خودم چون حق استفاده از پیکره رو داشتم متن همهٔ بیست ساعتو ریختم تو فایل ورد و با کنترل اف! چیزایی که می‌خواستمو پیدا کردم. ولی اولاً ورد بیچاره‌م به‌شدت سنگین شده بود (چندهزار صفحه بود) هم خیلی چیزا با کنترل اف پیدا نمی‌شد. مثلاً ترتیب اجزای جمله رو که با کنترل اف پیدا نمی‌کنن.

نرم افزار 

 

AntConc

 

به دردتون نمیخوره ؟ تا حالا امتحانش کردی ؟ 

پاسخ:
نه این اولاً با فارسی سازگار نیست ثانیاً فایل تگ و فایل صوتیو نمیشه واردش کرد و خروجی گرفت.

ببین چون رشته ی من نیست نمیتونم با قاطعیت بگم نرم افزار خوبیه اما با تگ میشه توش کار کرد . توی یوتیوب خیلی در موردش ویدیو هست  . با فارسی هم نمیدونم در چه حدی باید سازگار باشه اما من نصبش کردم و یه متن فارسی بهش دادم و  کلمات رو به ترتیب تعداد تکرار برام فهرست کرد . 

 

فکر میکنم از ورد بهتره . اگر جدی بهش نگاه کردی و مطمئنی که به درد نمیخوره که هیچ اما اگر خیلی باهاش کار نکردی یا با ورژن های قدیمی اش کار کردی به نظرم بد نیست یه بار دیگه امتحانش کنی . 

پاسخ:
زیاد با اینی که می‌گی کار نکردم، ولی آشنا هستم و می‌دونم که به درد کار ما نمی‌خوره. در واقع به درد تگ و سرچِ پیکرهٔ گفتاری فارسی بزرگ نمی‌خوره.
از امنیتشم اطمینان ندارم. مطمئن نیستم که هوش مصنوعیش کپی داده‌هایی که توش می‌ریزیم رو برای خودش برمی‌داره یا نه.

+ الان یادم افتاد که نرم‌افزار ELAN هم هست ولی اونم به همهٔ دردهامون نمی‌خوره و کافی نیست.

آیا میدونستی پروژه ی شما به من خیر رسوند ؟ بعد از این که گفتی مشکل نرم افزاری دارید رفتم توی گوگل که ببینم پیکره به انگلیسی چی میشه  (که الان هم یادم نیست چی میشد :دی ) . بعد کلمه اش رو برداشتم توی یوتیوب پیست کردم و جلوش یه سافتور نوشتم که ببینم چه نرم افزارهای مطرحی براش هست و دیدم طبق معمول یه هندی داره در مورد یه نرم افزار حرف میزنه  ( یوتیوب محتوای آموزشی اش رو مدیون ملت شریف هنده ) .  بعدش که اون نرم افزار رو معرفی کردم خودم دانلودش کردم که ببینم برای فارسی چطوره و گفتی به دردتون نمیخوره

 

اما من اتفاقی موقع تست به جای قسمت سرچ رفته بودم توی سمت کلمات و کلمات رو برام به ترتیب تکرار فهرست کرد . 

 

خب این رو قبلا گفته بودم . 

 

اما یه چیزی به ذهنم رسید . من دیکشنری لغات چند تا از زبان هایی رو که موقع بیکاری میخونم داشتم . دیکشنری به ترتیب تکرار . فریکوئنسی دیکشنری . یه چیزی شبیه کتاب 504 انگلیسی اما مثلا برای فرانسوی .  

 

اما همیشه خوندنشون  برام خسته کننده بود و خیلی خوب جلو نمیرفت . از طرفی خیلی دوست داشتم به اون زبان ها رمان بخونم ولی خوندن رمان برام ترسناک بود چون کلمات زیادی رو بلد نبودم . 

 

الان رمان های مورد علاقه ام رو که قبلا ترجمه شون رو خوندم رو دانلود کردم و با این نرم افزاره اول فهرست کلمات پر تکرار رو میگیرم . 

 

مثلا برای یه رمان  حدود 100 صفحه ای بهم حدود شش هزار و دویست کلمه داده . حالا اول این فهرست رو میخونم و هر وقت که کلماتش رو تموم کردم رمان رو راحت شروع میکنم . 

 

توی این دو روز فهمیدم خوندن فهرست کلمات رمان مورد علاقه ام برام جذاب تره نسبت  به اون فریکوئنسی دیکشنری ها 

 

تازه روی هر کلمه که کلیک میکنی همه ی جملاتی که اون کلمه توشون استفاده شده رو میاره و اون جملات برام جالب تره نسبت به جملات رندوم توی دیکشنری ها . 

 

خلاصه ناخواسته خیلی به من کمک کردی . درسته خودم پیداش کردم اما اگر این پست رو نمینوشتی من هیچ وقت دنبال همچین چیزی نمیگشتم که بخوام پیداش کنم . 

 

اینا رو نوشتم که هم تشکر کنم هم اگر کسی از اینجا رد شد که خواست یه زبانی رو بخونه یا یک کتاب رو به اون زبان بخونه از این روش استفاده کنه و دیگه از اون کتاب و کلماتش نترسه . 

پاسخ:
چه خوب. خدا رو شکر.
انگلیسیش میشه corpus 
اون نرم‌افزارها برای تگ هستن یا سرچ؟
ما اول باید تگ بزنیم تا کاربر بر اساس تگ‌ها (برچسب‌ها) جست‌وجو کنه. هم تگر و هم سرچ باید فایل صوتی رو پشتیبانی کنن. می‌کنن؟

میشه لینکشو بدید ببینم؟
تگرِ ما این‌شکلیه:

Laurence Anthony's AntConc

 

این لینک سایتشه . تازه به جز این نرم افزار چند تا نرم افزار دیگه هم ساخته و همه شون رایگانه . توی قسمت نرم افزار ها میتونی لیست نرم افزارهاش رو ببینید . 

 

راستش من توی یوتیوب دیدم که باهاش تگ هم میزنن . سرچ هم داره . اما فایل صوتی رو فکر نکنم پشتیبانی کنه . نرم افزار آنالیز متنه . 

 

رابط کاربری اش خیلی قشنگ نیست و برای تگ و سرچ بهتره چند تا آموزش از یوتیوب ببینید . 

 

توی لیست نرم افزارهاش یه نرم افزار جدا هم برای تگ داره . راستش خیلی در مورد تگ و سرچ خودم تحقیق نکردم چون لازم نداشتم ولی فارسی رو حداقل برای ساختن فهرست پشتیبانی کرد . انتظار داشتم یه سری کارکتر نامفهوم بیاره ولی کلمات رو نشون داد 

 

یعنی با پیکره تون راحت میتونید لیست کلمات پرتکرار فارسی رو در بیارید و برای آموزش فارسی به خارجی ها استفاده کنید . 

 

فقط در مورد فارسی چیزی که فهمیدم اینه که نیم فاصله با فاصله براش فرقی نداره 

 

یعنی اگر یه متن بنویسید به این صورت و در فایل تکست ذخیره کنید 

 

می روم 

می‌روم

 

به شما میگه کلمه ی می دو بار تکرار شده . 

 

همین مشکل رو در فرانسوی هم دیدم . مثلا 

 

c’est

 

رو اگر بهش بدید میگه یه کلمه در این متن وجود داره به نام c 

 

تقریبا مطمئنم براش راه حل وجود داره چون توی یوتیوب دیدم فرانسوی زبانی رو که برای متن فرانسوی از این نرم افزار استفاده کرده 

 

اما برای من خیلی این مسئله مهم نبود که بخوام در موردش جست و جو کنم . 

 

خلاصه باید یه مقدار روش وقت بذارید و گوگل و یوتیوب رو بگردید که ببینید به دردتون میخوره یا نه 

پاسخ:
مرسی. احتمالاً تیممون (اون دختری که برنامه‌نویسی کارو بر عهده داشت) قبل از اینکه من بهشون ملحق بشم روی این چیزا تحقیق کرده. من سال نودوپنج بهشون پیوستم و اونا اون موقع نرم‌افزار تگرو ساخته بودن و داشتن ازش استفاده می‌کردن. قبلشم با نرم‌افزار پرت برچسب زده بودن ولی به مشکل خورده بود. اون دختره نرم‌افزار سرچ رو هم نوشته بود، ولی آنلاین نبود و هر کی می‌خواست استفاده کنه باید نصبش می‌کرد و کل داده‌ها رو توش می‌ریخت تا سرچ کنه. ما هم نمی‌خوایم کل داده‌ها رو بدیم. می‌خوایم سرچ آنلاین باشه.
ببین هدف ما فرکانس‌گیری و پیدا کردن کلمات پرتکرار نیست. ما فحش‌ها رو برچسب می‌زنیم و کاربر انتظار داره وقتی فحش رو جست‌وجو کرد، لیستشو در اختیار داشته باشه. فرکانس رو مثال زدم که متوجه بشید پیکره چیه. کار ما برچسب زدنِ پیکرۀ گفتاریه. اگه این نرم‌افزارها فایل صوتی رو پشتیبانی نکنه که نمیشه. تازه نه فقط پشتیبانی، بلکه باید امکان اینو داشته باشن که جمله‌به‌جمله تقطیع کنیم صوت رو. و جمله‌به‌جمله بشنویم که فلان فحش چجوری به‌کار می‌ره تو جمله.

ای قشنگتر از پریا :))))))))))))))))))))))))))))))))))))))))))

 

انتظار داشتم اشعاری در حد اشعار استاد سایه رو توی پیکره تون آنالیز کنید :)))) 

 

 

پاسخ:
ویژگی این پیکره اینه که کنترل‌شده نیست. ینی ما نمی‌گیم ملت چی بگن چی نگن. تو کوچه و خیابون هر چی بگن اونا رو ضبط و تحلیل می‌کنیم. حُسنش همین طبیعی بودنشه.
داستان پریا اینجاست:

وقتی نوشتید corpus 

 

و من دوباره کلمه اش رو دیدم یه کلمه مشابه یادم افتادم و  تازه فهمیدم داستان چیه . پس این که توی فارسی بهش میگن پیکره بی دلیل نیست . 

 

corps در فرانسوی 

cuerpo در اسپانیایی 

corpo در ایتالیایی

 

یعنی بدن . پس احتمالا این کلمه ی corpus هم هم خانواده ی همین کلمات باشه و برای همین بهش میگن پیکره . 

 

من اصلا وقتی فارسی اش رو دیدم دقت نکردم که پیکر همون بدنه . 

 

پاسخ:
با تشکر از فرهنگستان که چنین معادل خوبی انتخاب کرده براش :))

آره میدونم هدف شما کلمات پرتکرار نیست . این نرم افزاره برای آنالیز پیکره استفاده میشه 

 

A freeware corpus analysis toolkit for concordancing and text analysis

 

و یکی از ویژگی هاش کلمات پرتکراره . ولی متوجه شدم که به درد شما نمیخوره . 

 

+ بله بله هر چند از حداد عادل خیلی خوشم نمیاد ولی در به نظر میاد اون قدر ها هم بد نیست :دی

با تشکر از فرهنگستان :)) 

پاسخ:
ممنون بابت معرفی نر‌م‌افزار