کتابخانه عمومی بوستون، یکی از قدیمیترین و بزرگترین نظامهای کتابخانهای عمومی آمریکا، تابستان امسال پروژهای را با همکاری OpenAI و دانشکده حقوق هاروارد آغاز میکند تا مخزن ارزشمند اسناد دولتی تاریخی خود را برای عموم دسترسپذیرتر کند. این گنجینه که به اوایل قرن نوزدهم بازمیگردد، طیفی از تاریخهای شفاهی، گزارشهای کنگره و پیمایشهای مربوط به صنایع و جوامع مختلف را در بر میگیرد؛ منابعی که به تعبیر جسیکا چپل، مدیر خدمات دیجیتال و آنلاین کتابخانه، «مخزن شگفتانگیزی از منابع دست اول درباره تاریخ ایالات متحده در قالب انتشارات دولتی» است.
خلاصه خبر کتابخانه عمومی بوستون
همکاری سهجانبه کتابخانه عمومی بوستون، OpenAI و دانشکده حقوق هاروارد برای دیجیتالسازی و قابلجستوجو کردن اسناد دولتی تاریخی
مجموعه شامل تاریخ شفاهی، گزارشهای کنگره و پیمایشهای صنعتی و اجتماعی از اوایل دهه ۱۸۰۰ میلادی
هدف اولیه: دیجیتالسازی ۵۰۰۰ سند تا پایان سال، با بهبود فراداده برای جستوجوی تماممتن و ارجاع متقابل از سراسر جهان
مدل همکاری: تامین مالی بخشی از پروژه توسط شرکتهای AI در ازای آموزش روی دادههای عمومیِ خارج از حق نشر، بدون دسترسی انحصاری
تاکید متخصصان: حضور کتابداران و آرشیویستهای حرفهای برای حفظ یکپارچگی و کیفیت داده؛ هشدار درباره شکاف فرهنگی «سریع حرکت کن» در تکنولوژی و «شفافیت و دسترسپذیری» در کتابداری
تا امروز، پژوهشگران و علاقهمندان برای دسترسی به این اسناد ناچار بودند حضوری به کتابخانه مراجعه کنند. اکنون قرار است با دیجیتالسازی، غنیسازی فراداده و پیادهسازی قابلیت جستوجوی تماممتن و ارجاع متقابل، این مجموعه از هر نقطه جهان قابل بازیابی و تحلیل باشد.

پروژه چیست و چرا اهمیت دارد؟
برنامه امسال کتابخانه، دیجیتالسازی دستکم ۵۰۰۰ سند تا پایان سال است؛ هدفی بلندپروازانه با توجه به اندازه و شکنندگی آرشیو. هر قلم باید بهصورت دستی اسکن شود و اسکن ۳۰۰ تا ۴۰۰ صفحه حدود یک ساعت زمان میبرد. افزون بر تبدیل فیزیک به دیجیتال، بخش کلیدی پروژه به «غنیسازی داده» برمیگردد: افزودن و استانداردسازی فراداده (metadata)، پیونددهی موجودیتها، و ایجاد امکان جستوجوی تماممتن و cross-reference میان اسناد.
خروجی این کار، بهبود چشمگیر تجربه کاربر است: پژوهشگر میتواند روایتهای تاریخی را در مدارک مختلف ردیابی کند، گزارشهای کنگره را با پیمایشهای صنعتی تطبیق دهد و بدون حضور فیزیکی، تحلیلهای تطبیقی انجام دهد.
نقش هاروارد و OpenAI: معاملهای شفاف با دادههای عمومی
ابتکار دادههای نهادی کتابخانه دانشکده حقوق هاروارد (Harvard Law School Library’s Institutional Data Initiative) با موزهها، کتابخانهها و آرشیوها همکاری میکند تا مدلهای AI را برای بهبود «قابلیت جستوجو و کشف» مجموعهها آموزش دهد. شرکتهای AI بخشی از هزینهها را تامین میکنند و در عوض میتوانند مدلهای خود را بر روی مواد باکیفیت و خارج از حق نشر (public domain یا out-of-copyright) تمرین دهند؛ دستهای از دادهها که ریسک حقوقی پایینتری دارند.
برتُن دیویس، معاون گروه مالکیت فکری مایکروسافت، میگوید حضور نهادهای دانشی مانند کتابخانهها در ساخت «اکوسیستم داده پایدار برای AI» حیاتی است، چون نهتنها حجم دادههای در دسترس را افزایش میدهد، بلکه کیفیت و درک ما از آن دادهها را هم بالا میبرد.
OpenAI نیز اعلام کرده است که هزینههایی مانند اسکن و مدیریت پروژه را پوشش میدهد، بیآنکه حقوق انحصاری روی دادههای دیجیتالشده داشته باشد: «ما همچون دیگران، از تلاش برای دیجیتالسازی حوزه عمومی بهرهمند میشویم و این دادههای باکیفیت، دانشی را که سامانههای هوش مصنوعی—از جمله مدلهای ما—بر آن بنا میشوند، گسترش میدهد.»

دسترسی برای همه؛ نه دسترسی ویژه
گرِگ لپرت، مدیر اجرایی ابتکار دادههای نهادی در هاروارد، تاکید میکند هدف، اعطای دسترسی ویژه به شرکتهای AI نیست. هر کس پس از دیجیتالسازی، به دادهها دسترسی خواهد داشت. به گفته او، «این یک خیابان دوطرفه است: ما داده را به شکلی بهبود میدهیم که به AI کمک کند، و همان بهبودها به کتابخانه بازمیگردد و تجربه مخاطب را بهتر میکند.»
این مدل «بازگشتِ ارزش» تضمین میکند که سرمایهگذاری بخش خصوصی صرفاً به نفع شرکتها تمام نشود و نهاد عمومی و کاربران نهایی هم بهرهمند شوند—از کیفیت فراداده گرفته تا استانداردهای فنی و قابلیتهای جستوجوی پیشرفته.
چرا حضور کتابداران مهم است؟
سام هلمیک، رییس انجمن کتابخانههای آمریکا، تاکید میکند که «حرفهایهای آموزشدیده با دانش عمیق موضوعی» در این گذار نقش کلیدی دارند. از دید او، زمانیکه مدلهای AI بر آرشیو آموزش میبینند و ابزارهای کشف را تقویت میکنند، نقش انسانهای خبره در صحهگذاری، ردهبندی، استانداردسازی اصطلاحات و حفاظت از یکپارچگی مواد دوچندان میشود.
چپل از کتابخانه عمومی بوستون هم این همکاری را «ارزشمند» میداند، چون «دسترسیپذیری مجموعهها» را افزایش میدهد—آن هم در شرایطی که کار فیزیکی اسکن زمانبر و حساس است.
چالشهای همکاری عمومی-خصوصی: اختلاف زمانبندی و فرهنگ
با وجود مزایا، کارشناسان به چالشهای فرهنگی نیز هشدار میدهند. مایکل هانیگن، همنویسنده کتاب «هوش مصنوعی مولد و کتابخانهها»، میگوید روحیه «سریع حرکت کن و چیزها را بشکن» در سیلیکونولی با ارزشهای کتابداری—دسترسی، شفافیت و دقت—در تعارض است. خود چپل اذعان دارد: «این همه چیز خیلی سریع در حال حرکت است: فناوری سریع حرکت میکند، شرکتها سریع حرکت میکنند، اما کتابخانهها با مقیاس زمانی کاملاً متفاوتی کار میکنند. بنابراین کمی برخورد فرهنگی وجود دارد.»
در نتیجه، موفقیت چنین پروژههایی مستلزم حاکمیت داده روشن، شفافیت قراردادها، عدم انحصار، و نقشهراهی مرحلهبندیشده است تا کیفیت فنی فدا نشود و ارزشهای کتابداری حفظ گردد.
در بستر روندی بزرگتر
طرح بوستون در امتداد موج گستردهتری از دیجیتالسازی میراث مستند است. از پروژههای کتابخانه کنگره برای دیجیتالسازی مجموعههای تاریخی گرفته تا تلاشها برای ادغام کتابخانههای دیجیتال کشور در یک درگاه یکپارچه—همگی بر یک هدف مشترک تاکید دارند: دسترسی آزاد، پایدار و باکیفیت به منابع دست اول برای پژوهشگران و عموم مردم.
برای مطالعه اخبار بیشتر اینجا کلیک کنید.
گام بعدی چیست؟
اگر فاز نخست با موفقیت پیش برود، کتابخانه عمومی بوستون قصد دارد دامنه پروژه را گسترش دهد؛ هم در حجم اسناد و هم در عمق فراداده. در کوتاهمدت، اولویت با مجموعههای دولتی است که خارج از حق نشر قرار دارند؛ در بلندمدت، میتوان به پیونددهی میانمجموعهای، ابزارهای اکتشافی پیشرفتهتر و حتی رابطهای پژوهشمحور مبتنی بر AI اندیشید—همه با شرط صریحِ عدم انحصار و مشارکت جامعه حرفهای کتابداری.
نظر شما در مورد این مطلب چیه؟