|
Giới
thiệu sơ lược chữ Nôm
trong tin học
Tiến sĩ Ngô Thanh Nhàn
Đặc San Nhịp Sống
Giới thiệu
Một trong những mất mát lớn nhất của dân tộc Việt Nam trong
những năm chiến tranh là chữ Nôm. Theo nhiều nhà nghiên cứu, chữ Nôm bắt đầu sử
dụng vào thế kỷ thứ 10 cho đến đầu thế kỷ này (khoảng những năm 1920). Những kho
tư liệu viết bằng chữ Nôm còn lại sau chiến tranh ở rải rác khắp thế giới như
Trung Quốc, Pháp, Mỹ, Va-ti-can, Nhật, v.v. Hàng nghìn văn bia ở rải rác khắp
nước Việt Nam không người và của cải để giữ gìn chăm sóc. Số người đọc được chữ
Nôm hiện nay có thể đếm trên đầu ngón tay và có nguy cơ bị mất hoàn toàn khi
những học giả này qua đời. Những học giả tiền bối của chúng ta đã nhiều năm cố
gắng phiên các tác phẩm viết bằng chữ Nôm ra chữ quốc ngữ, như truyện Kiều. Tuy
nhiên số này còn nhỏ so với các kho tư liệu to tát như các địa chí, các tác phẩm
nghệ thuật khác như chèo, tuồng, hát bộ, v.v. ghi bằng chữ Nôm.
Hiện nay có nhiều cố gắng tại Việt Nam và ngoài nước để gây
lại chữ Nôm, như tự điển chữ Nôm của Ðỗ Thông Minh (tại Nhật), các nghiên cứu
của Nguyễn Khắc Kham, Nguyễn Ðình Hoà (tại Mỹ), và nhiều nghiên cứu công phu như
của cụ Hoàng Xuân Hãn, Ðào Duy Anh, Vũ Văn Kính, Nguyễn Quang Hồng, Viện Hán
Nôm, Viện Ngôn ngữ học, Hội Ngôn ngữ học Việt Nam, v.v.
Bài này không nhằm mục đích nghiên cứu sâu về chữ Nôm. Tôi
chỉ xin giới thiệu một công trình đưa chữ Nôm vào tin học của Tổng cục Tiêu
chuẩn, Ðo lường, Chất lượng - Tiểu ban mã chuẩn chữ Nôm (thuộc Ban Tiêu chuẩn
Công nghệ Thông tin) trong những năm vừa qua.
Giới thiệu sơ lược về ngôn ngữ và chữ viết
Truyện Kiều có
câu:

phiên âm ra chữ quốc ngữ thành:
"Lời lời châu ngọc, hàng hàng gấm thêu"
Khi nói, ta nói từng tiếng một. Tiếng nối nhau thành hàng, thành chuỗi, như
chuỗi hạt. Câu nói nối kết nhau như thêu một bức gấm. Chữ viết cũng thế - người
ta chỉ viết được từng nét một nối nhau thành chuỗi ký tự. Trong ngành ngôn ngữ
học, ta nói ngôn ngữ có tuyến tính (linearity).
Số câu nghe được và học được trọn đời của một người Việt có giới hạn, nhưng
số câu ta nói được là vô hạn. Số chữ ta biết được có giới hạn, số câu mẫu và cụm
từ tạo thành câu có giới hạn, nhưng số câu chúng tạo thành vô hạn. Những câu mới
của người nói mà người nghe hiểu được "tự nhiên như đã nghe được từ trước" cho
ta thấy ngôn ngữ có tính hệ thống và tính phổ quát (là người ai cũng có).
Chữ viết là một hệ thống ký tự ghi lại tiếng nói của con người. Tất cả những
hệ thống ký tự hiện nay đều không thể ghi lại đầy đủ tiếng nói, kể cả các ký tự
phiên âm quốc tế. Ví dụ, ta viết câu "em đi học", người đọc không thể biết "em"
là người nói (tiếng Anh, "I"), hay "em" là người nghe (tiếng Anh, "you"), hay
"em" là người thứ ba (tiếng Anh, "he/she"). Ta cũng không thể biết đó là câu sai
khiến, câu hỏi, hay câu xác định, hay câu kể chuyện - dù ta có bỏ thêm dấu "?",
dấu thang "!", dấu dứt câu "." hay dấu lửng "...".
Tiếng Việt nằm trong nhóm Môn-Khơ-me, thuộc ngữ hệ Nam-á. Trong tiếng Việt,
mỗi tiếng (syllable) khi viết xuống thành một chữ (written syllable) đứng riêng
biệt với các chữ khác. Trong tin học, ta nói chữ đứng giữa hai dấu cách
(delimiters). Một từ (word) trong tiếng Việt có một hay nhiều tiếng (số nguyên
dương), ví dụ bút, đồng hồ, nhà cửa, ô-tô, v.v.
Chữ quốc ngữ dùng các ký tự la-tinh, như a, b, c, d, đ,...; các dấu mũ
(circumflex), dấu ngắn hay dấu trăng (breve), dấu râu (horn) dành cho các nguyên
âm a, ă, â, e, ê, o, ô, ơ, u, ư; các dấu thanh như không dấu (no tone mark) cho
thanh ngang (high level tone), dấu huyền (grave tone mark) cho thanh huyền (low
level tone), dấu sắc (acute tone mark) cho thanh sắc (high-rising tone), dấu
nặng (dot below tone mark) cho thanh nặng (creaky tone), dấu hỏi (hook above
tone mark) cho thanh hỏi (low rising tone), dấu ngã (tilde tone mark) cho thanh
ngã (creaky rising tone). Chữ quốc ngữ chuẩn gồm có 17 con chữ phụ âm: b, c, d,
đ, g, h, k, l, m, n, p, q, r, s, t, v, x, 12 con chữ nguyên âm: a, ă, â, e, ê,
i, o, ô, ơ, u, ư, y, và 5 dấu thanh: huyền, sắc, nặng, hỏi, ngã.
Người Việt Nam đánh vần, â mờ âm thờ âm thâm sắc thấm để tả cách viết của chữ
thấm. Thanh sắc đọc cuối cùng, và thường là nét cuối cùng khi viết. Dấu sắc viết
lên trên con chữ nguyên âm â. (Ðúng ra, tuy thanh sắc nằm trên vần âm, nhưng khi
viết ta vẫn coi như nằm trên nguyên âm â. Ðiều này có nghĩa là khi viết, việc bỏ
dấu sắc lên nguyên âm chỉ là quy ước). Cách đánh vần quôc ngữ như thế cho ta
biết người Việt Nam "phân tích" một tiếng theo các con chữ (â, m, t, h, sắc),
các con chữ lập thành phần vần (âm), phần phụ âm đầu (th), và cuối cùng là thanh
(sắc - high rising). Ðánh vần như thế giúp ta hiểu được cách nói lái, cách tạo
từ láy, cách chơi chữ, cách gieo vần trong thơ, v.v. Ðối với người Việt Nam,
tiếng, vần và thanh là ba đơn vị quan trọng hơn các con chữ cái và từ. Ta nói,
Việt Nam hai tiếng ngọt ngào, nhưng không nói Việt Nam một từ ngọt ngào... Chữ
Nôm nói chung sử dụng những âm và tiếng có sẵn trong tiếng Hán-Việt và thay đổi
hình dáng của chúng để ghi lại những tiếng có sẵn trong tiếng Việt.
Ta nói, tiếng Việt có hai cách viết, một cách viết theo chữ quốc ngữ, một
cách viết theo chữ Nôm.
Khái niệm về chuẩn công nghệ thông tin
Chuẩn công nghệ thông tin là một hệ thống mã (số) biểu thị hệ thống chữ viết
dùng để trao đổi thông tin. Máy tính là công cụ chính. Mỗi mã là một con chữ cái
trong tiếng Việt chuẩn. Theo chuẩn trao đổi thông tin chữ quốc ngữ TCVN
5712:1993, â và dấu sắc là hai đơn vị chính tả (orthographic units) và mỗi đơn
vị có một mã riêng biệt. Một thành tố chính tả (orthographic element), ví dụ như
ấ, được tạo bằng hai cách: dùng mã 202 (cơ số 10) (ấ) hoặc dùng hai mã 169 (â)
tiếp theo mã dấu kết nối 179 (dấu sắc - acute combining mark). Ta nói, trong
chính tả tiếng Việt mã 202 "tương đương" với hai mã 169 và 179. Một điểm cần nhớ
là chuẩn thông tin ở mỗi thứ tiếng có khác nhau - do đó chuẩn ISO 8859 La-tinh-1
cho các thứ tiếng Âu châu đặt mã 202 cho con chữ ấ, thay vì ấ trong tiếng Việt.
Chúng ta "đưa" mã vào bộ nhớ của máy tính bằng cách sao chép hoặc nhấn từ bàn
phím (đánh máy chữ). Khi đánh máy, mỗi phím, ví dụ như a, chuyển vào bộ nhớ của
máy tính số 97. Và hai phím Shift+a chuyển vào bộ nhớ số 65. Trong máy tính, số
97 chuyển thành ảnh chữ a (bitmap - ma trận bit) phóng lên màn hình và máy in.
Bộ nhớ (memory) và vận hành (processor) của máy tính cơ bản vẫn nối đuôi nhau
(sequential) - ta nói, máy tính vận hành và ghi nhớ có tuyến tính. Ðặc tính này
không phải là ngẫu nhiên mà tương tự với ngôn ngữ sống. Hệ thống chuẩn trao đổi
thông tin và chuẩn bàn phím trong máy tính cho các loại chữ viết giúp ta hiển
thị tiếng Việt đúng, đơn giản và đầy đủ. Ba nguyên tắc này, dựa trên cách ta
đánh vần ở trường học, là ba nguyên tắc quan trọng trong việc lập chuẩn chữ Nôm.
Vài nét về chữ Nôm
Chữ Nôm là thứ chữ viết được gọi là biểu ý (tiếng Anh, "ideographic") - là
thứ chữ ghi lại nghĩa hoặc hình vẽ. Tuy nhiên, không ai có thể xác định: "nghĩa
là gì ?"
Ta nói con dao, tờ giấy, cục đá, nước đá, cái đá, cuộn chỉ, mũi kim, cuốn
sách, v.v. trong tiếng Việt thì chữ cái, con, tờ, cục, nước, cuộn, mũi, cuốn,
v.v. có thể gọi là nghĩa, nhưng đúng ra phải gọi là những chữ phân loại những
chữ kế tiếp (theo một quy ước nào đó của mỗi ngôn ngữ).
Khi ta nói câu Cho hắn một ... đá, thì tiếng đá chỉ rõ nghĩa khi ta thêm
tiếng cái hoặc tiếng hòn vào chỗ ba chấm "...". Khi ta viết hai chữ đá, chữ Nôm
và
- bộ
túc (loại chân) chỉ động từ
đá, và bộ thạch (loại đá) để
chỉ hòn đá, thì những "bộ" này thật ra cũng chỉ là những ký tự để phân loại,
giống như cái và hòn. Nếu "bộ" là để chỉ nghĩa, thì trong chữ Nôm ta không biết
nên viết đá trong câu đá lông nheo thành
theo bộ mịch (loại tơ),
theo bộ mục (loại mắt),
theo bộ tiêu (loại tóc), hay
theo bộ túc (loại chân), v.v.
Ví dụ trên cho ta thấy, tuy bộ là tiéng phân loại, nhưng hệ thống "bộ" của
chữ Hán (như túc, thạch, mịch, mục, tiêu, v.v.) và hệ thống các tiếng phân loại
trong tiếng Việt (như cái, con, hòn, mũi, sợi, v.v.) không giống nhau. Suy luận
từ đó, lập chuẩn thông tin cho chữ Nôm (có thể nói, kể cả chữ Hán) dựa hệ thống
"bộ" chữ Hán (cụ thể theo hệ thống 214 bộ trong Tự điển Khang Hy) không bao giờ
đúng và không bao giờ đầy đủ.
Chữ Nôm và chữ Hán viết mỗi chữ trong một khung vuông. Giống như chữ quốc
ngữ, mỗi chữ đều đứng giữa các dấu cách, và có thể bẻ ra thành những bộ phận nhỏ
nhận ra được. Những bộ phận nhỏ có thể tìm thấy đều đặn trong những chữ khác, ví
dụ, mập, ỏng, phì, nục, béo, bọng, mảy, v.v. đều có một bộ phận được gọi tên là
"bộ" nhục (loại thịt). Khi
đánh vần chữ đá, ta nói: viết
túc trước, viết
đa sau. Khi đánh vần chữ
kép (tiếng Anh, "compound"),
ta nói: viết nhị trên, viết
kiếp dưới. Tuy là viết lúc
ngang, lúc dọc trong khung vuông, nhưng ta vẫn "coi như" viết ngang, giống như
trong chữ quốc ngữ: a sắc á. Tuy dấu sắc viết trên chữ a, nhưng ta vẫn "coi như"
viết sau chữ a. Ðây là điểm quan trọng giúp ta hiểu được tuyến tính (linearity)
trong hệ thống chữ viết biểu ý. Hiểu như thế giúp ta sắp đặt lại các bộ phận cấu
thành cơ bản nhất của chữ Nôm (hay loại chữ biểu ý) trong một khung vuông. Do
đó, cấu tạo của chữ biểu ý không hẳn phức tạp như chúng ta thường nghĩ.
Trong một nghiên cứu về tự điển Khang Hy (Trung Quốc) của hai học giả Zhang
Zhoucai (Trung quốc) và Lu Chin (Ðài Loan), những chữ gồm hai bộ phận xếp chồng
trên-dưới (mẫu b, khoảng 12.000 chữ, 24%) và xếp ngang trước-sau (mẫu a, khoảng
32.000 chữ, 65%) trong một khung vuông chiếm 89% toàn bộ chữ trong tự điển.
Tương tự, trong 501 chữ thuần Nôm trong bộ mã chuẩn TCVN 5773:1993 (xem trang
mẫu kèm theo cuối bài), Ngô Thế Long thuộc Viện Hán Nôm, cho biết cách ghép
trước-sau (mẫu a, gồm 330 chữ, 66%) và cách ghép trên-dưới (mẫu b, gồm 90 chữ,
18%) chiếm 84% số chữ.
Viết chữ Nôm
Chữ Nôm viết theo cách viết chữ Hán và dùng chữ Hán để làm các bộ phận tạo
chữ. Chữ thuần Nôm là những chữ chỉ có ở nước ta. Chữ Nôm Hán là những chữ Hán
đọc theo tiếng Việt. Chữ Hán-Việt là chữ Hán đọc theo âm Việt mượn của tiếng Hán
thời nhà Ðường. Ngoài ra, ở Việt Nam còn có các chữ biểu ý khác như chữ Nôm Tày
của người Tày. Cách đọc chữ Nôm Việt có thể giản lược như sau:
Viết chữ Hán, đọc kiểu Hán-Việt:
chữ
đọc kiểu Hán-Việt là tài.
chữ
đọc Hán-Việt là vụ, Hán-Việt cổ là mùa.
Viết chữ Hán, đọc kiểu Việt:
chữ
đọc kiểu Hán-Việt là dịch (nách), đọc kiểu Việt là nách.
chữ
đọc kiểu Hán-Việt là một (chìm), đọc kiểu Việt là một (số 1).
Viết chữ Hán, đọc gần giống Hán-Việt:
chữ
đọc kiểu Hán-Việt là biệt (xa), đọc kiểu Việt là biết.
Gộp âm Hán-Việt các phần chữ Hán:
chữ
đọc là trăng, gồm hai chữ ba
+ lăng [> blăng (chữ Việt
trung đại)]: trăng.
Gộp "nghĩa" các phần chữ Hán:
chữ
đọc kiểu Việt là trùm, gộp "nghĩa" chữ Hán-Việt
nhân (người) + chữ Hán-Việt
thượng (trên).
Dùng một chữ Hán để chỉ loại và một chữ Hán để chỉ âm đọc gần âm Hán-Việt:
chữ
đọc kiểu Việt là tanh, gồm chữ
nhục (loại thịt) và gần âm Hán-Việt
tinh.
chữ
đọc kiểu Việt là cỏ, gồm chữ
thảo (loại cỏ) và gần âm Hán-Việt chữ
cổ.
Dùng âm Hán-Việt một chữ Hán chỉ cách đọc khác:
chữ
đọc kiểu Việt là phên, gồm âm Hán-Việt chữ
phiến và dấu cá
(dấu đọc trệch vần).
Dùng một phần chữ Hán để chỉ âm đọc:
chữ
đọc là khề, gồm chữ Hán-Việt
kỳ cắt bỏ một chân phải.
chữ
đọc là khà, gồm chữ Hán-Việt
kỳ cắt bỏ một chân trái.
chữ
đọc là khoai, gồm chữ Hán-Việt
thổ (loại đất) và một phần là âm Hán-Việt chữ
khoa, cắt bỏ phần trên.
chữ
đọc là hũ, gồm chữ Hán-Việt
thổ (loại đất) và một phần là âm chữ
hữ, cắt bỏ phần trước.
[Xem thêm Lê Văn Quán và các bài cấu tạo chữ Nôm.]
Các bộ mã chuẩn chữ Nôm dùng trong trao đổi thông tin:
Kể từ năm 1993, Tổng cục Tiêu chuẩn, Ðo lường, Chất lượng Việt Nam in hai
quyển tiêu chuẩn chữ Nôm: quyển một TCVN 5773:1993 gồm 2.357 chữ (gồm 1.775 chữ
thuần Nôm) và quyển hai TCVN 6056:1995 gồm 3.349 chữ mượn hoàn toàn chữ Hán. Mỗi
chữ gồm số thứ tự, hình dáng chữ, xuất xứ (từ tự điển nào) và cách đọc (viết
theo chữ quốc ngữ). Chữ Nôm được tạo theo phông bitmap 24x24 và 96x96. Cơ quan
in hai tiêu chuẩn này có thể sắp chữ theo thứ tự 214 bộ của Khang Hy Tự điển.
Tuy nhiên, việc dùng 214 bộ còn đang thảo luận vì chữ thuần Nôm, chữ thuần Triều
(Triều Tiên) và chữ thuần Nhật (kể cả chữ Trung Quốc) gồm nhiều "bộ" không nằm
trong Khang Hy.
Nhóm Nghiên cứu chữ biểu ý Ideographic Rapporteur Group (gồm các uỷ ban tiêu
chuẩn quốc gia của Trung Quốc, Triều Tiên, Nhật, Việt Nam, Ðài Loan, Singapore,
v.v.) do Tổ chức Tiêu chuẩn Quốc tế ISO/IEC JTC 1/SC 2/WG 2 lập ra năm 1993
(Việt Nam là một trong 4 nước tham gia đầu tiên) vừa họp xong tại Thành phố Hồ
Chí Minh (15-19 tháng 12, 1997) trong chương trình đưa các loại chữ biểu ý vào
kho chữ quốc tế. Sự tham gia này giúp Việt Nam thấy được toàn bộ công trình kỹ
thuật của quốc tế lập kho chữ biểu ý, rút ngắn công trình xây dựng chuẩn chữ Nôm
của mình.
Việc in hai tiêu chuẩn chữ Nôm, tuy còn sơ khởi (chưa có chuẩn bàn phím),
nhưng đã được hai cơ quan Unicode (Mỹ) và Cơ quan Chuẩn Quốc tế ISO 10646 chấp
thuận. Trước nhất, việc này giúp cho việc in ấn, truyền thông chữ Nôm (hơn tám
mươi năm nay không in được chữ Nôm, phải vẽ tay), và giúp cho thư viện cũng như
các nhà nghiên cứu liệt kê, phiên thành chữ quốc ngữ, hoặc in lại các tài liệu
chữ Nôm cho nhiều nơi cần nghiên cứu, sử dụng. Sau nữa, việc này giúp cho việc
học và giảng dạy chữ Nôm, nhất là cho các sinh viên Việt Văn bậc trung học và
đại học dễ hơn. Cuối cùng, nó giúp các nhà bảo tàng nhận dạng chữ Nôm (tự động)
và phiên thành chữ quốc ngữ (tự động) trong việc bảo tồn và truyền bá các kho
tàng chữ Nôm.
Việc sử dụng máy tính, lập chuẩn thông tin, đối chiếu Nôm-quốc ngữ, đưa chữ
Nôm vào kho chữ quốc tế, ... là những bước khởi đầu rất nhỏ để gây dựng lại sử
liệu, kiến thức và kho tàng chữ Nôm bị chiến tranh gần như xoá sạch. Những bước
tiếp tục như quét lưu trữ, nhận dạng và phiên thành chữ quốc ngữ tự động, v.v.
còn nhiều phức tạp và cần có sự tham gia của những học giả trẻ trong chúng ta...
Tiến sĩ Ngô Thanh Nhàn
1997.
Các tài liệu tham khảo tiêu biểu:
1. Ðào Duy Anh. 1975. Chữ Nôm: nguồn gốc, cấu tạo, diễn
biến. Nhà xuất bản Khoa học Xã hội. Hà Nội.
2. Huình-Tịnh Paulus Của. 1895. Ðại Nam Quấc âm tự vị. Sàigòn. In lại: Nhà
xuất bản Xuân Thu.
3. Lê Văn Quán. 1981. Nghiên cứu về chữ Nôm. Nhà xuất bản Khoa học Xã hội.
Hà Nội.
4. Nguyễn Du. 1993. Truyện Kiều: đối chiếu chữ Nôm - Quốc ngữ, do Vũ Văn
Kính khảo lục. Viện Bảo tàng Lịch sử Tp. Hồ Chí Minh.
5. Tiêu chuẩn Việt Nam. TCVN 5712:1993. Công nghệ thông tin: Bộ mã chuẩn
8-bit lí-tự Việt dùng trong trao đổi thông tin. Hà Nội.
6. Tiêu chuẩn Việt Nam. TCVN 6064:1995. Công nghệ thông tin: Bố trí bàn phím
chữ Việt cho các hệ văn phòng. Hà Nội.
7. Tiêu chuẩn Việt Nam. TCVN 5773:1993. Công nghệ thông tin: Bộ mã chuẩn
16-bit chữ Nôm dùng trong trao đổi thông tin - Phần 1: Chũ Nôm Việt. Hà Nội.
8. Tiêu chuẩn Việt Nam. TCVN 6056:1995. Công nghệ thông tin: Bộ mã chuẩn
16-bit chữ Nôm dùng trong trao đổi thông tin: Chữ Nôm Hán. Hà Nội.
9. Vũ Văn Kính & Nguyễn Quang Xỹ. 1971. Tự điển chữ Nôm. Trung tâm Học liệu.
Sàigòn.
10. Viện Ngôn ngữ học. 1976. Bảng tra chữ Nôm. Nhà xuất bản Khoa học Xã hội.
Hà Nội.
| |