۲۰۷۳- سامانهای که هنوز اسم ندارد
* این پست دربارۀ طراحی یک سامانه برای جستوجوی راحتترِ واژههاست. اسمهایی که فعلاً براش به ذهنم رسیده ایناست:
یابش، یابیار، جویار، جویا، جویابش، آختار، تاپ، تاپار، آختارتاپ! (به ترکی یعنی بگرد، پیدا کن) و جویاب (که این جویاب جوراب رو تداعی میکنه برام؛ ولی به هر حال جوریدن همون جستنه)

روال کار واژهگزینی تو فرهنگستان رو قبلاً چند بار توضیح دادم. اینجا یه بار دیگه مختصر و مفید میگم که ببینیم این سامانه قراره به چه دردمون بخوره. اولاً فرهنگستان ده بیست بخش مختلف داره و من الان مشخصاً در مورد بخش واژهگزینی دارم صحبت میکنم. عکس بالا، یکی از جلسات شنبه رو نشون میده و پشت این برگهها منم که خسته از مدرسه اومدم و احتمالاً شب قبلشم دیر خوابیدم و تا صبح برگه تصحیح کردم و حالا با اسپرسوی فوری و چای و نبات! خودمو زنده نگهداشتم.
قبل از این جلسه (مثلاً فرض کنید جلسۀ واژههای رشتۀ شیمی هست)، نمایندۀ فرهنگستان (که تخصص شیمی نداره) با استادان و متخصصان شیمی صدها جلسه برگزار کرده و بهشون راهنماییهای زبانشناسی داده و این برگههایی که تو تصویر هست رو آماده کرده و همراه چند نفر از متخصصان اون رشته آورده جلسه. تو هر برگه که بهش میگن کاربرگه، یه واژۀ انگلیسی هست، یه معادل فارسی و مترادفها و همخانوادهها و تعریفها و منابع. تو قسمت ملاحظات هم نوشتن که آیا حوزههای دیگه (مثل فیزیک و...) هم این واژه رو دارن یا نه و بهش چی میگن. اینا رو شنبهها میارن جلسه و از شورای فرهنگستان رأی تصویب میگیرن و هر سال اردیبهشتماه تو کتاب فرهنگ مصوبات چاپ میکنن. این عکسی که تو هدر وبلاگم هست یکی از این جلدهاست. در وقع جلد پنجمشه. تا حالا بیست جلد چاپ شده و هر سال یه جلد جدید اضافه میشه به مجموعه. مثلاً اگه امسال گروه ورزش و برق و فلسفه و پزشکی و هنر و کشاورزی واژههاشونو آورده باشن جلسه و تصویب کرده باشن، سال دیگه اردیبهشتماه واژههاشون منتشر میشه. داخل کتاب هم به این صورته که یه واژۀ انگلیسی هست و یه واژۀ فارسی و یه تعریف و حوزۀ تخصصی که اون واژه مخصوص اونه. بقیۀ بند و بساطها تو همون کاربرگهها میمونه. مثلاً اون گوشه سمت چپ وبلاگم از تورنادو و پیچند و تعریفی که حوزۀ علوم جوّ داده عکس گرفتم. اون عکسو از جلد پنجم گرفتم (اصلاً یکی از شگفتیهای آفرینش اینه که اسم فصل پنجم وبلاگم تو جلد پنجمه!). یه خبر بد هم اینکه کاربرگهها بهصورت کاغذی آرشیو میشه و سامانهای برای ذخیرهسازیشون نداریم. یه تعداد از پژوهشگرا تو این سالها کامپیوترشون یا هاردشون سوخته و کاربرگههاشون از دست رفته. ولی مسئلۀ فعلی من کاربرگه نیست. آرشیو کردن اونا هم مسئلهست، ولی اولویت الان جستوجوئه! که در ادامه توضیح میدم:
قبلاً (دهۀ هفتاد و اوایل هشتاد) پژوهشگرها و استادان و دانشجویان و هر کسی که روی کرۀ زمین بود، وقتی میخواستن بدونن معادل فارسی فلان کلمه چیه، یا وقتی این نمایندههای فرهنگستان میخواستن قسمت ملاحظات کاربرگه رو پر کنن، میرفتن دونه دونه مصوبات رو از کتابهای چاپشده نگاه میکردن مینوشتن. یه روز خانم س. (که قند روزهای تلخ کاری منه) همت کرد و اینا رو تبدیل کرد به اکسل. حتی زرنگارهای دهۀ هفتاد رو هم تبدیل کرد به اکسل. و هر سال هر جلدی که چاپ شد، به ردیفهای این اکسل هم اضافه شد. و هر کسی که میخواست پژوهش کنه از این اکسل میگشت. حتی به سایت واژهیاب و واژهیار و یه سری سایتهای دیگه هم همین اکسل رو دادیم و مصوبات رو گذاشتن تو سایتشون. چون خودمون سایت نداریم و این مسئلۀ دیگۀ منه که چرا نباید خودمون یه سایت درست و درمون داشته باشیم که اینم فعلاً بماند.

دو سه سال با خانم س. کار کردم و ایرادات نگارشی و ویرایشی این اکسل رو رفع کردیم. مثلاً یه ایراد بزرگش یکدست نبودن اسم حوزهها بود. مثلاً یه جا نوشته بودن حوزۀ باستانشناسی، یه جا باستانشناسی چسبیده. این تو فیلتر کردن اختلال ایجاد میکنه. یه جا نوشته بودن بسپار، یه جا مهندسی بسپار. کلاً صدتا حوزه داشتیم ولی سیصدچهارصدتا اسم داشتن این حوزهها! ماهها طول کشید که اسامی گروهها رو یکدست کنم و تحویل خانم س. بدم. اشکال بعدی این بود که صفحهکلید پژوهشگرها استاندارد نبود و کاراکترها فرق داشتن و یکدست نبودن. مثلاً واژۀ یک رو به چهار روش مختلف! نوشته بودن. چون ی عربی با ی فارسی و ک عربی با ک فارسی فرق داره و یک رو میشه چهار جور تایپ کرد. بینظمی تو نیمفاصلهها هم بیداد میکرد. با همۀ این اشکالات و صدها اشکال دیگه تو ارجاع و اندیسگذاری و...، بازم کاچی به از هیچی بود و این اکسلِ پراشکال، کار پژوهشگرها رو راه مینداخت.
پارسال خانم س. بازنشسته شد و از بین اون همه همکار قدیمی که سابقهشون بیشتر از من بود و کارکشتهتر بودن، صلاح دید که مسئولیت اکسلشو بده به من که زین پس من جلدهای جدید رو بهش اضافه کنم و اشکالاتشو رفع کنم. تا اون موقع هر اشکالی هم پیدا میکردم خودم به اکسل دست نمیزدم و گزارش میدادم خود خانم س. انجام بده که آشپز دوتا نشه.
اکسل حدوداً هفتادهزار ردیف داره. هم سنگینه و جستوجو ازش سخته، هم پر از اشکال. و متأسفانه با همین اشکالاتش تو سایتهایی مثل واژهیاب ارائه شده. اگه بخواید بدونید منظورم از اشکال چیه، هر موقع اینترنت وصل شد و واژهیاب بالا اومد، واژۀ sewer رو توش جستوجو کنید تا ببینید خودش و ترکیباتش به چند شیوه نوشته شدن. با نیمفاصله، چسبیده، با تنوین حتی!
امسال دوتا پروژه برای خودم تعریف کردم. یکی اینکه محتوای اکسل رو ویرایش کنم، و دیگه اینکه یه برنامه یا سامانه برای جستوجوی راحتتر طراحی کنم. کلاً اکسل فضای مناسبی برای این کار نبود. برای دهۀ هشتاد خوب بود، برای الان نه. با اطلاعات ناقصم اول رفتم سراغ اکسس که اونجا یه دیکشنری طراحی کنم، ولی با برنامهای که یکی از دوستان با هوش مصنوعی نوشت، مسیرمو تغییر دادم سمت html. برنامهای که ایشون با هوش طبیعی خودش و هوش مصنوعی هوشزی طراحی کرده اینه:

اکسل رو تو قسمت فایل بارگذاری میکنیم و صفحۀ جستوجو میاد. نایکدستیها رو با قرمز نشون دادم که متوجه بشید منظورم چی بود:
تصویر ۱. این عکسها رو با اندازۀ اصلی ذخیره کردم که قابل خوندن باشن. با زوم کردن یا باز کردن در صفحۀ جدید بهتر نمایش داده میشن.

تصویر ۲. اینجا پیچند رو جستوجو کردم.
تصویر ۳ [این]: اینا نیمفاصلههای کاذبه که تو کتاب، موقع چاپ، ظاهراً درست دیده میشه ولی در واقع چسبیده هست و اینجوریه. و در نتیجه جستوجو رو مختل میکنه.
تصویر ۴ [این]: حتی ۀ رو هم ة عربی تایپ کردن. مثلاً سامانۀ شده سامانة
حالا چندتا سؤال از اونایی که تلاش کردن تو نوشتن چنین برنامهای کمکم کنن یا دوست دارن کمک کنن دارم.
سؤال ۱. اینو من با گوشی هم میتونم اجرا کنم؟ فایل کد و اکسل رو ریختم تو گوشیم و اون ایندکس html رو با wps office باز کردم. جز این برنامه، چیز دیگهای نبود که فایلو باهاش باز کنم. باز شد، ولی وقتی میخواستم انتخاب فایل رو بزنم و اکسل رو بارگذاری کنم که کد اجرا بشه نوشت ویرایشگر html در گوشی پشتیبانی نمیشود.
حالا سؤالم اینه که چه نرمافزاری روی گوشیم نصب کنم که پشتیبانی کنه؟ یا کلاً تو گوشی نمیشه؟ میخواستم تو جلسات، اونایی که لپتاپ ندارن با گوشی جستوجو کنن.
سؤال ۲. سایت سردر اصناف، یه چیزی شبیه این داره، با این تفاوت که اونجا خودش فایل اکسل رو داره، و میتونی کل اکسل رو دانلود کنی. حالا سؤالم اینه که من اگه این کد رو بذارم تو سایت فرهنگستان، اکسل رو هم بذارم تو همون سایت (البته نمیدونم کجاش باید آپلود کنم)، آیا ملت میتونن بیان سایت فرهنگستان و واژهها رو جستوجو کنن و بعدش فایل اکسل رو دانلود کنن مثل سایت سردر اصناف؟ این آدرس سایت سردر اصناف هست و نتیجۀ جلسات نامگزینی رو هم میدیم اونجا بذارن:
https://sardarasnaf.ir/all/inquiry.html
سؤال ۳. امکانش هست نتایج، ردیفی، مثل ردیفهای اکسل و به همون ترتیب و تعداد ستونهای اکسل باشه و محدود به چهار نباشه یا حتماً باید بگیم چهارتا ستون داریم و جاهاشو تعریف کنیم؟ چون ترتیب و تعداد ستونهای اکسل هر پژوهشگر ممکنه متفاوت با اکسل پژوهشگر دیگه باشه. مثلاً اگه اکسل چهار ستون داشت چهار ستون نشون بده اگه بیستتا ستون داشت بیستتا.
سؤال ۴. همونطور که در اکسل، هر ردیف شماره داشت، نیاز هست که هر نتیجه شمارهٔ ردیفی که ازش استخراج شده رو داشته باشه. همچنین وقتی چیزی رو جستوجو میکنیم لازمه تعداد نتایج رو بدونیم. در واقع تعداد ردیفها رو. این شدنیه؟
سؤال ۵. سورت یا ترتیب نتایج بر اساس سورت فایل اکسله. اگر بخوایم نتایج بر اساس ستون اول یا دوم یا سوم و... سورت بشه این امکان هست؟ مثلاً به ترتیب الفبایی فارسی یا لاتین یا به ترتیب حوزه. مثلاً اول حوزهٔ آمار، بعد حوزهٔ پزشکی، بعد حوزهٔ ورزش.
سؤال ۶. هر کدوم از حوزههای ستون حوزه که با ویرگول جدا شده، یه حوزهٔ جداست. تو اکسل مثلاً میومدیم ورزش رو فیلتر میکردیم فقط واژههای اونو میاورد. حالا اگه پزشکی و ورزش واژهٔ مشترک داشت هم میاورد. ولی این برنامه این کارو نمیکنه. ورزش رو یه حوزه در نظر گرفته، ورزش و پزشکی رو باهم یه حوزهٔ دیگه، پزشکی رو یه حوزهٔ دیگه. سه حوزه حساب کرده در واقع. اینو چه جوری تفکیک کنیم که بفهمه ویرگول نشانۀ تفکیکه؟
سؤال ۷. تو قسمت نتایج، حوزهها شبیه هشتگ عمل میکنن. یعنی با کلیک روی حوزهٔ ورزش، فقط واژههای ورزش رو میاره و نتایج دیگه که مثلاً از شیمی و اقتصاد و... بود حذف میشه. سؤالم اینه که میشه واژهها هم مثل حوزهها قابلیت لینک و عملکردی شبیه هشتگ داشته باشن؟ مثلاً اونجا که هفتتا واژهٔ حالت داریم تو حوزهٔ زبان، فیزیک، پزشکی، گیاهی و... میخوام با کلیک روی یکی از حالتها، بقیهٔ حالتها هم بیان. البته حالت۱ و حالت۲ و حالت۳ و... اندیسگذاری شده، ولی چیزی که مد نظرمه لینک شدن این واژهها به هم، صرفنظر از اندیسشونه.
یه جای دیگه هم این لینک شدن مهمه. اونجا که ارجاع داده میشن. مثلاً کرانه رو به ساحل ارجاع دادن. بعدش ساحل رو مدخل کردن و تعریف نوشتن براش. درسته که با جستوجوی ساحل، هر دو نتیجه میاد، ولی میشه با کلیک روی این ساحل، کرانه که به ساحل ارجاع داده شده هم بیاد؟ تو ارجاعهای معادلدار این اتفاق افتاده ولی تو ارجاعهای عادی نه.
سؤال ۸. این الان نسبت به جستوجوی حرکههای فتحه و ضمه و کسره حساسه. یعنی اگه تو فایل اکسل، دم و دَم و دُم باشه و ما دم رو جستوجو کنیم فقط دم رو میاره نه دَم و دُم رو. نسبت به نیمفاصله هم حساسه. مثلاً اگه تو اکسل کتابخانه نوشته شده باشه و ما کتابخانه رو بگردیم پیدا نمیکنه. ترفند پژوهشگرا تو این سالها این بود که یه ستون بدون حرکهگذاری و بدون فاصله (چسبیده) میذاشتن کنار ستون کلمات و جستوجو رو از اون ستون انجام میدادن. میشه اون ستون رو هم الان اضافه کرد که اونم بگرده؟ تو همین عکس از اکسل که گذاشتم، ستون F و G صورت پیوسته (چسبیده) هستن برای حل این مشکل. ضمن اینکه وقتی یه چیزی رو جستوجو میکنیم بتونیم بگیم از کدوم ستونها بگرده. مثلاً اینجا من واژۀ پیچند رو جستوجو کردم، این رفت از تعریفها که توشون فعل میپیچند بود رو هم آورد.
جزئیات دیگهای رو هم یادداشت کردم، ولی فعلاً همینا رو حل کنیم تا بعد.
برنامه اینه: https://bayanbox.ir/info/2760728496978515515/v
بعد از استخراج روی فایل index.html کلیک کنید. بعد فایل اکسل رو انتخاب کنید.
اینم یه نمونه اکسل:
https://s34.picofile.com/file/8489371542/vajehaye_mosavab_16_.xlsx.html
لینک مستقیم دانلود اکسل:
https://s34.picofile.com/d/8489371542/c87c0abe-d655-46ae-9616-e8ba6660361e/vajehaye_mosavab_16_.xlsx
