Ngôn ngữ là một hệ thống giao tiếp có cấu trúc được sử dụng bởi con người. Cấu trúc của ngôn ngữ được gọi là ngữ pháp, còn các thành phần tự do của nó được gọi là từ vựng. Ngôn ngữ là phương tiện giao tiếp chính của con người, tồn tại ở dạng lời nói, ký hiệu hoặc chữ viết. Phần lớn các ngôn ngữ trên thế giới sở hữu các hệ chữ viết có chức năng ký âm và bảo tồn lời nói. Trong số các hệ thống giao tiếp ở động vật, ngôn ngữ của con người độc đáo ở nhiều điểm như: nó không phụ thuộc vào một phương thức truyền tải duy nhất nào, nó khác biệt giữa từng nền văn hóa và từng giai đoạn lịch sử, và nó có phạm vi biểu đạt rộng hơn nhiều so với các hệ thống khác.[1]
Ngôn ngữ con người có tính năng sản (productivity, tức là khả năng tạo ra vô số từ mới chỉ dựa trên các yếu tố cơ bản) và tính dịch chuyển (displacement, tức là khả năng nhắc đến thứ nằm ngoài ngữ cảnh hiện tại), đồng thời nó phải dựa trên quy ước xã hội và sự học tập tiếp thu.
Số lượng ngôn ngữ trên thế giới dao động trong khoảng từ 6.000-7.000, phụ thuộc vào chỉ tiêu phân biệt giữa ngôn ngữ và phương ngữ của từng tác giả.[2] Ngôn ngữ tự nhiên có thể là khẩu ngữ, thủ ngữ hoặc cả hai; tuy vậy, bất kỳ ngôn ngữ nào cũng có thể được mã hóa bằng phương tiện thứ cấp được tiếp nhận bởi thính giác, thị giác hoặc xúc giác; ví dụ như văn bản, biển báo, chữ nổi hoặc huýt sáo. Nói cách khác, ngôn ngữ của con người độc lập khỏi phương thức biểu đạt, còn ngôn ngữ ký hiệu và ngôn ngữ viết là các phương thức lưu giữ hoặc mã hóa tiếng nói tự nhiên hoặc cử chỉ của con người.
Khi được sử dụng như một khái niệm chung, ngôn ngữ có thể được hiểu là (1) khả năng nhận thức để tiếp thu và sử dụng các hệ thống giao tiếp phức tạp, hoặc (2) tập hợp các quy tắc tạo nên các hệ thống giao tiếp đó, hoặc (3) tập hợp các ngữ lưu (utterance) có thể được tạo ra từ những quy tắc đó. Tất cả các ngôn ngữ đều phải dựa vào quá trình thiết hiệu (semiosis) để liên hệ dấu hiệu (sign) với một ý nghĩa (meaning) cụ thể. Khẩu ngữ, thủ ngữ và ngôn ngữ xúc giác đều có hệ thống âm vị (phonology) quy định sự kết hợp các biểu tượng (symbol) với nhau để tạo thành các chuỗi gọi là từ hoặc hình vị; cùng một hệ thống cú pháp quy định sự kết hợp các từ và hình vị để tạo thành ngữ đoạn (phrase) và ngữ lưu.
Môn khoa học nghiên cứu ngôn ngữ được gọi là ngôn ngữ học. Các xem xét phản biện về ngôn ngữ (triết học ngôn ngữ, mối quan hệ giữa ngôn ngữ và tư duy, điển hình như khẳng định 'ngôn từ đại diện cho kinh nghiệm', v.v) đã được thảo luận từ thời của các triết gia Gorgias và Plato của Hy Lạp cổ đại. Các nhà tư tưởng sau đó như Rousseau (1712–1778) thì cho rằng ngôn ngữ bắt nguồn từ cảm xúc, trong khi Immanuel Kant (1724–1804) lại cho rằng ngôn ngữ bắt nguồn từ suy nghĩ luân lý và logic. Các triết gia thế kỷ 20 như Ludwig Wittgenstein (1889–1951) cho rằng triết học chẳng qua là nghiên cứu ngôn ngữ. Hai học giả quan trọng nhất có công tạo dựng nên ngành ngôn ngữ học hiện đại là Ferdinand de Saussure và Noam Chomsky.
Ngôn ngữ được cho là đã dần tách ra từ hệ thống giao tiếp linh trưởng tiền khởi, khi các hominin sơ khai lĩnh hội khả năng hình thành lý thuyết tâm trí (theory of mind) và tính ý hướng (intentonality) chung.[3][4] Sự phát triển những đặc điểm này trùng hợp với khuynh hướng gia tăng khối lượng não ở người. Nhiều nhà ngôn ngữ học coi cấu trúc của ngôn ngữ đã tiến hóa để phục vụ các chức năng giao tiếp và chức năng xã hội cụ thể. Ngôn ngữ được xử lý ở nhiều khu vực trực thuộc não bộ, chủ yếu ở vùng Broca và Wernicke. Con người thụ đắc ngôn ngữ thông qua giao tiếp xã hội từ thời thơ ấu; trẻ em thường nói trôi chảy khi lên 3. Ngôn ngữ và văn hóa phụ thuộc lẫn nhau; do vậy, bên cạnh công dụng giao tiếp, ngôn ngữ còn có những công dụng xã hội như biểu thị bản sắc nhóm, phân tầng xã hội, giải trí và chải chuốt xã hội (social grooming).
Ngôn ngữ biến đổi và đa dạng hóa theo thời gian; lịch sử diễn tiến của ngôn ngữ có thể được phục nguyên (reconstruction) thông qua phương pháp so sánh lịch sử nhằm tìm ra điểm chung giữa các ngôn ngữ hiện đại và suy luận ra được đặc điểm mà ngôn ngữ tổ tiên chung của chúng đã sở hữu. Một nhóm ngôn ngữ có chung nguồn gốc từ cùng một tổ tiên được gọi là một ngữ hệ; ngược lại, một ngôn ngữ mà chưa được chứng minh là có bất cứ mối quan hệ nào với các ngôn ngữ đồng đại hoặc lịch đại khác thì được gọi là ngôn ngữ biệt lập. Hiện vẫn có những ngôn ngữ chưa được nghiên cứu phân loại và đôi khi có các ngôn ngữ giả mạo bị báo cáo nhầm hoặc do sự cố tình lừa đảo. Giới học thuật hiện nay nhất trí cho rằng 50-90% ngôn ngữ được nói vào đầu thế kỷ 21 có lẽ sẽ "tuyệt chủng" vào năm 2100.[5][6][7]
Trong tiếng Việt, "ngôn ngữ" là phiên âm Hán-Việt của cặp chữ Hán 言語 (bính âm Quan thoại chuẩn: yányǔ). Trong giai đoạn tiếng Hán trung cổ, hai chữ này được phát âm là /ŋɨɐn ŋɨʌX/,[chú thích 1] và trong giai đoạn tiếng Hán thượng cổ, 言 và 語 được phục nguyên lần lượt là *ŋan và *ŋaʔ theo nhà ngôn ngữ học Thượng Phương (2003).[8] Schuessler (2007) cho rằng 言 (OC: *ŋan) là danh từ phái sinh của động từ 語 (OC: *ŋaʔ, nghĩa là 'nói') vì có kèm hậu tố *-n.[9] Một từ nữa dùng để chỉ ngôn ngữ nói trong tiếng Việt là "tiếng", bắt nguồn từ "tiếng" của tiếng Việt trung đại (thế kỷ 17)[10] và là một từ mượn có gốc Hán trung cổ, 聲 (MC: ɕiᴇŋ) 'âm thanh'.
Trong tiếng Anh, "language" 'ngôn ngữ' được vay mượn từ language 'ngôn ngữ' của tiếng Pháp cổ (âm Pháp cổ là lanˈɡʷadʒə), bắt nguồn từ lingua 'lưỡi' của tiếng Latin, chính nó lại bắt nguồn từ *dn̥ǵʰwéh₂s 'lưỡi, lời nói, ngôn ngữ' của tiếng Ấn-Âu nguyên thủy.[11]
Danh từ "ngôn ngữ" có thể được dùng để chỉ mật mã, cipher và ngôn ngữ nhân tạo, ví dụ như ngôn ngữ máy tính trong kỹ thuật lập trình. Theo đó, ngôn ngữ được định nghĩa là hệ thống các dấu hiệu nhằm mục đích mã hóa và giải mã thông tin. Bài viết này tập trung vào ngôn ngữ tự nhiên của loài người, được nghiên cứu bởi ngành ngôn ngữ học.
"Ngôn ngữ", trong vai trò là đối tượng nghiên cứu của ngôn ngữ học, có hai nghĩa chính: khái niệm trừu tượng hoặc hệ thống ngôn ngữ cụ thể kiểu như "tiếng Việt". Nhà ngôn ngữ học Thụy Sĩ Ferdinand de Saussure (người có công định hình nghiên cứu ngôn ngữ học hiện đại) là người đầu tiên phân biệt rõ ràng sự khác biệt đó. Ông sử dụng từ language để chỉ khái niệm, từ langue để chỉ ví dụ cụ thể của một hệ thống ngôn ngữ và từ parole để chỉ phương cách sử dụng lời nói của một ngôn ngữ cụ thể.[12]
Khi nói về ngôn ngữ như một khái niệm chung, nhiều định nghĩa có thể được vận dụng để nhấn mạnh các khía cạnh khác nhau của hiện tượng này.[13] Mỗi định nghĩa sẽ định hình phương pháp nghiên cứu và sự thấu hiểu ngôn ngữ theo từng cách riêng, dẫn đến những trường phái lý thuyết khác nhau hoặc xung khắc nhau.[14] Các tranh luận xoay quanh bản chất và nguồn gốc của ngôn ngữ đã tồn tại từ thời cổ đại. Các triết gia Hy Lạp như Gorgias và Platon hoài nghi về mối quan hệ giữa từ ngữ, khái niệm và thực tế. Gorgias cho rằng ngôn ngữ không thể đại diện cho trải nghiệm khách quan lẫn trải nghiệm nhân sinh, rằng giao tiếp và chân lý đều bất khả dĩ. Trái lại, Platon cho rằng chúng ta có thể giao tiếp được vì ngôn ngữ đại diện cho các ý tưởng và khái niệm tồn tại độc lập khỏi ngôn ngữ và trước cả ngôn ngữ.[15]
Trong các cuộc tranh luận về nguồn gốc loài người vào thời kỳ Khai sáng, các suy đoán về nguồn gốc ngôn ngữ đã trở nên rất thịnh hành. Các nhà tư tưởng như Rousseau và Herder cho rằng ngôn ngữ bắt nguồn từ sự biểu đạt cảm xúc theo bản năng, và nó ban đầu gần với âm nhạc và thơ ca hơn là logic và tư duy lý trí. Các nhà triết học duy lý như Kant và Descartes lại có quan điểm ngược lại. Khoảng đầu thế kỷ 20, các nhà tư tưởng bắt đầu băn khoăn về vai trò của ngôn ngữ trong việc hình thành trải nghiệm của con người về thế giới – đặt câu hỏi liệu ngôn ngữ có phản ánh đơn thuần cấu trúc khách quan của thế giới, hay liệu ngôn ngữ tạo ra những khái niệm mà nó áp đặt lên trải nghiệm về thế giới khách quan của chúng ta. Điều này lại dẫn đến câu hỏi liệu các vấn đề triết học có thực sự trước hết phải là vấn đề ngôn ngữ học hay không. Sự trỗi dậy của quan điểm cho rằng ngôn ngữ đóng vai trò chủ đạo trong việc tạo ra và lưu thông các khái niệm, cùng quan điểm cho rằng nghiên cứu triết học về cơ bản là nghiên cứu ngôn ngữ, gắn liền với cái được gọi là bước ngoặt ngôn ngữ học (linguistic turn) và triết gia Ludwig Wittgenstein của thế kỷ 20. Các tranh luận về quan hệ của ngôn ngữ với ý nghĩa và tham chiếu, với nhận thức và ý thức, vẫn đang rất sôi nổi cho đến tận ngày nay.[16]
Một định nghĩa coi ngôn ngữ chủ yếu là khả năng tâm trí (mental faculty) cho phép con người thực hiện các hành vi ngôn ngữ: để học ngôn ngữ, để sản xuất và để hiểu lời nói. Định nghĩa này nhấn mạnh tính phổ quát của ngôn ngữ ở loài người và cơ sở sinh học của khả năng sử dụng ngôn ngữ như là một sự phát triển độc đáo của não người. Những người ủng hộ quan điểm này cho rằng sự thụ đắc ngôn ngữ là bẩm sinh ở loài người; họ khẳng định điều này là hiển nhiên vì lẽ, tất cả trẻ em bình thường lớn lên trong môi trường tiếp xúc với ngôn ngữ đều có thể tiếp thu ngôn ngữ mà chẳng cần hướng dẫn. Ngôn ngữ thậm chí có thể phát triển một cách tự nhiên trong môi trường con người sống và lớn lên cùng nhau mà không có ngôn ngữ chung; ví dụ, các ngôn ngữ Creole và ngôn ngữ ký hiệu Nicaragua. Quan điểm này bắt nguồn từ thời các triết gia Immanuel Kant và René Descartes, về sau còn xuất hiện trong thuyết ngữ pháp phổ quát của Noam Chomsky và thuyết bẩm sinh cực độ của triết gia người Mỹ Jerry Fodor. Định nghĩa này thường được sử dụng trong các nghiên cứu ngôn ngữ thuộc khuôn khổ khoa học nhận thức và ngôn ngữ học thần kinh.[17][18]
Một định nghĩa khác coi ngôn ngữ là một hệ thống hình thức (formal system) bao gồm các biểu tượng tuân theo quy tắc ngữ pháp kết hợp nhằm truyền tải một ý nghĩa. Định nghĩa này nhấn mạnh rằng ngôn ngữ con người có thể được mô tả như một hệ thống kết cấu đóng, trong đó bao gồm các quy tắc ánh xạ các dấu hiệu cụ thể tới các ý nghĩa cụ thể.[19] Quan điểm cấu trúc này được Ferdinand de Saussure đề xướng,[20] và thuyết cấu trúc (structuralism) của ông là nền móng của nhiều phương pháp tiếp cận ngôn ngữ hậu thế.[21]
Những người ủng hộ lý thuyết ngôn ngữ của Saussure chủ trương một cách tiếp cận hình thức để nghiên cứu cấu trúc ngôn ngữ bằng cách xác định các yếu tố cơ bản rồi trình bày các quy tắc kết hợp các yếu tố đó nhằm hình thành từ và câu hoàn chỉnh. Noam Chomsky, cha đẻ thuyết ngữ pháp tạo sinh (generative grammar), là người ủng hộ nhiệt tình lý thuyết này. Chomsky định nghĩa ngôn ngữ là sự xây dựng các câu cú có thể được tạo ra bằng ngữ pháp chuyển đổi (transformational grammar).[22] Chomsky cho rằng các quy tắc đó là đặc điểm bẩm sinh của tâm trí con người và tạo thành các nguyên lý cơ bản của ngôn ngữ.[23] Khái niệm ngữ pháp chuyển đổi cũng thường xuyên được áp dụng trong các ngành như logic học, ngôn ngữ học hình thức và ngôn ngữ học máy tính.[24][25]
Một định nghĩa khác coi ngôn ngữ là một hệ thống giao tiếp cho phép con người trao đổi ngữ lưu lời nói (verbal) hoặc biểu tượng (symbolic). Định nghĩa này nhấn mạnh chức năng xã hội của ngôn ngữ; con người sử dụng ngôn ngữ để bộc lộ bản thân và thao túng đối tượng trong môi trường. Các lý thuyết chức năng của ngữ pháp giải thích các cấu trúc ngữ pháp dựa trên chức năng giao tiếp của chúng, cho rằng các cấu trúc ngữ pháp của ngôn ngữ là kết quả của một quá trình thích ứng trong đó ngữ pháp được hiệu chỉnh nhằm phục vụ nhu cầu giao tiếp của người sử dụng.[26][27]
Quan điểm này gắn liền với việc nghiên cứu ngôn ngữ trong khuôn khổ các ngành ngữ dụng học, ngôn ngữ học nhận thức, ngôn ngữ học tương tác, ngôn ngữ học xã hội và nhân học ngôn ngữ. Các lý thuyết chức năng thường coi ngữ pháp như những hiện tượng động, như những cấu trúc luôn trong quá trình thay đổi khi người nói sử dụng. Quan điểm này đặt trọng tâm nghiên cứu ở ngành loại hình học ngôn ngữ (linguistic typology), tức là phân loại ngôn ngữ theo đặc điểm cấu trúc, do có thể chỉ ra rằng sự ngữ pháp hóa (grammaticalization) có xu hướng đi theo quỹ đạo phụ thuộc một phần vào loại hình học.[25] Trong triết học ngôn ngữ, quan điểm coi ngữ dụng là trung tâm của ngôn ngữ và ý nghĩa thường gắn liền với các tác phẩm của Wittgenstein và các triết gia ngôn ngữ thông thường như J.L. Austin, Paul Grice, John Searle hay W.O. Quine.[28]
Nhà ngôn ngữ học Charles Hockett đã mô tả nhiều đặc điểm khác biệt của ngôn ngữ con người, mà được ông đặt tên là các đặc điểm thiết kế (design feature),[29] tách biệt ngôn ngữ con người khỏi các hệ thống giao tiếp ở loài vật.
Các hệ thống giao tiếp ở động vật như ong hoặc vượn là các hệ thống đóng bao gồm một số lượng hữu hạn (thường rất hạn chế) các ý tưởng có thể diễn đạt.[30] Ngược lại, ngôn ngữ con người là hệ thống mở và năng sản, tức là nó cho phép con người tạo ra một loạt các ngữ lưu từ một tập hợp hữu hạn các yếu tố và cho phép con người tạo ra các câu từ mới. Điều này khả thi bởi vì ngôn ngữ con người dựa trên một mã kép (dual code), trong đó một số lượng hữu hạn các yếu tố vô nghĩa ban đầu (ví dụ: âm thanh, chữ cái hoặc cử chỉ) có thể được kết hợp để tạo thành vô số đơn vị ý nghĩa lớn hơn (từ và câu).[31] Tuy nhiên, một nghiên cứu đã chứng minh rằng loài chim Pomatostomus ruficeps ở Úc có khả năng sử dụng các yếu tố âm giống nhau nhưng theo cách dàn xếp khác nhau để tạo ra hai âm thanh khác biệt về chức năng.[32] Ngoài ra, loài chim Turdoides bicolor có khả năng tạo ra hai giọng hót khác biệt về chức năng được cấu thành từ cùng một loại âm, chỉ có thể được phân biệt bằng số lượng các yếu tố âm lặp lại.[33]
Một số loài động vật đã được chứng minh là có khả năng tiếp thu các hình thức giao tiếp thông qua học tập xã hội: ví dụ như một con tinh tinh lùn tên là Kanzi đã học cách thể hiện bản thân bằng cách sử dụng một bộ từ vựng tượng trưng (xem tiếng Yerkes). Tương tự, nhiều loài chim và cá voi học các tiếng kêu âm hưởng bằng cách bắt chước các thành viên khác trong đàn của chúng. Tuy đúng là một số loài vật có thể tiếp thu số lượng lớn từ và ký hiệu,[chú thích 2] khả năng tiếp thu của chúng vẫn còn kém xa một đứa bé loài người năm 4 tuổi trung bình và chúng vẫn chưa tạo ra bất kỳ thứ gì tương tự như ngữ pháp phức tạp ở ngôn ngữ con người.[35]
Ngôn ngữ con người khác biệt với các hệ thống giao tiếp động vật ở chỗ: nó sở hữu các đặc điểm ngữ pháp và ngữ nghĩa, chẳng hạn danh từ và động từ, thì hiện tại và thì quá khứ, được sử dụng để truyền đạt những ý nghĩa cực kỳ phức tạp.[35] Ngôn ngữ con người còn độc đáo với tính đệ quy: ví dụ, một cụm danh từ có thể chứa một cụm danh từ khác (kiểu như "[môi [con tinh tinh]]") hoặc một mệnh đề có thể chứa một mệnh đề khác (kiểu như "[Tôi thấy [con chó đang chạy]]").[4] Ngôn ngữ con người là hệ thống giao tiếp tự nhiên duy nhất được biết mà khả năng thích ứng có thể coi là độc lập về phương thức (modality independent). Điều này tức là ngôn ngữ có thể được sử dụng không chỉ để giao tiếp thông qua một kênh hoặc phương tiện duy nhất. Ví dụ, ngôn ngữ nói sử dụng phương thức thính giác, trong khi ngôn ngữ ký hiệu và chữ viết sử dụng phương thức trực quan, còn chữ nổi sử dụng phương thức xúc giác.[36]
Các giả thuyết về nguồn gốc ngôn ngữ khác nhau ở các giả định cơ bản về ngôn ngữ. Một số giả thuyết dựa trên ý tưởng rằng ngôn ngữ phức tạp đến mức nó không thể nào chỉ đơn thuần xuất hiện từ hư không ở dạng hoàn chỉnh, chắc hẳn nó đã tiến hóa từ các hệ thống tiền ngôn ngữ ở tổ tiên vượn nhân. Những giả thuyết thế này được gọi là các giả thuyết mang tính liên tục. Quan điểm trái lại cho rằng ngôn ngữ là một đặc điểm riêng của con người và không thể so sánh với bất cứ thứ gì ở những loài phi-người và do đó, nó đã phải xuất hiện đột ngột trong quá trình tiến hóa từ tiền-hominid sang loài người sơ khai. Những lý thuyết dạng này được gọi là các giả thuyết mang tính gián đoạn. Ngoài ra, các giả thuyết dựa trên quan điểm di truyền do Noam Chomsky tiên phong coi ngôn ngữ như một khả năng bẩm sinh được mã hóa chủ yếu trong di truyền; còn các giả thuyết theo lý thuyết chức năng coi ngôn ngữ như một hệ thống văn hóa chủ yếu, được lĩnh hội thông qua tương tác xã hội.[38]
Các lý thuyết liên tục được đa số học giả ủng hộ nhưng bất đồng về quá trình phát triển. Các học giả coi ngôn ngữ là khả năng bẩm sinh, chẳng hạn nhà tâm lý học Steven Pinker, coi tiền thân của ngôn ngữ là nhận thức ở động vật,[18] còn một số khác coi ngôn ngữ là công cụ giao tiếp được học thông qua xã hội, chẳng hạn nhà tâm lý học Michael Tomasello, cho rằng ngôn ngữ là công cụ tiến hóa từ giao tiếp động vật ở linh trưởng: giao tiếp bằng cử chỉ hoặc tiếng kêu để hỗ trợ và hợp tác.[39] Các mô hình dựa trên tính liên tục khác cho rằng ngôn ngữ tiến hóa từ âm nhạc và rất được tán thành bởi Rousseau, Herder, Humboldt và Charles Darwin. Một người đề xướng nổi bật của quan điểm này là nhà khảo cổ học Steven Mithen.[40] Nhà ngôn ngữ học Mỹ Stephen Anderson khẳng định rằng tuổi của ngôn ngữ nói rơi vào khoảng 60.000 đến 100.000 năm[41] và rằng:
Các nhà nghiên cứu về nguồn gốc tiến hóa của ngôn ngữ thường thấy hợp lý khi cho rằng ngôn ngữ chỉ được phát minh duy nhất một lần và tất cả các ngôn ngữ nói hiện đại theo một cách nào đó đều có quan hệ với nhau, ngay cả khi mối quan hệ đó không còn khôi phục được nữa ... vì những hạn chế của các phương pháp hiện thời nhằm tái tạo chúng.[42]
Bởi lẽ ngôn ngữ đã xuất hiện từ thời tiền sử, trước khi có bất kỳ ghi chép thành văn nào, sự phát triển ban đầu của nó không để lại bất kì dấu tích lịch sử nào và giới khoa học tin rằng hiện giờ ta không thể quan sát bất kì quá trình nào có thể mô phỏng lại sự khởi thủy đó. Các học giả theo thuyết liên tục chủ trương tìm kiếm ở động vật các đặc điểm có thể xem là tương tự với ngôn ngữ ở loài người sơ khai. Các nhà khảo cổ thì có khả năng kiểm định và tìm kiếm các dấu vết sinh học thích nghi cho việc sử dụng ngôn ngữ ở con người, hoặc tìm kiếm các dạng hành vi biểu tượng tiền ngôn ngữ. Một số các dấu hiệu hóa thạch con người biểu hiện khả năng ngôn ngữ là: kích thước não so với khối lượng cơ thể, sự tiến hóa của thanh quản có khả năng tạo ra âm thanh tiên tiến và một số công cụ cùng các đồ tạo tác.[43]
Một quan điểm truyền thống trong giới khảo cổ là các australopithecine tiền nhân tựu trung có hệ thống giao tiếp không khác mấy so với các loài vượn lớn. Tuy nhiên, một nghiên cứu về loài Ardipithecus ramidus năm 2017 đã thách thức quan điểm trên.[44] Một số học giả cho rằng sự phát triển của các hệ thống tiền ngôn ngữ (proto-language)[chú thích 3] bắt đầu sớm nhất với Homo habilis (2,3 triệu năm trước) trong khi nhiều học giả khác cho rằng sự tiến hóa của giao tiếp biểu tượng nguyên thủy bắt đầu với Homo erectus (1,8 triệu năm trước) hoặc Homo heidelbergensis (0,6 triệu năm trước), và sự tiến hóa của ngôn ngữ chính thống bắt đầu với Homo sapiens hiện đại về mặt giải phẫu trong cuộc cách mạng Đồ đá cũ Thượng chưa đầy 100.000 năm trước.[47][48]
Chomsky là học giả nổi bật đề xướng lý thuyết gián đoạn của sự tiến hóa ngôn ngữ.[38] Ông bình luận về các học giả quan tâm đến bản chất ngôn ngữ, "thảo luận về sự tiến hóa của năng lực ngôn ngữ là lạc đề."[49] Chomsky đề xuất rằng có lẽ "một số đột biến ngẫu nhiên đã xảy ra [...] và chúng đã tái tổ chức bộ não, cấy ghép một cơ quan ngôn ngữ vào bộ não đa phần linh trưởng."[50] Mặc dù Chomsky khuyên rằng không nên coi giả thuyết này theo nghĩa đen, ông vẫn khẳng định "nó có lẽ gần với thực tế hơn nhiều câu chuyện cổ tích khác về các quá trình tiến hóa, bao gồm cả ngôn ngữ."[50]
Ngôn ngữ học đã phát triển thành một ngành khoa học kể từ khi những mô tả ngữ pháp đầu tiên của các ngôn ngữ cụ thể ở Ấn Độ hơn 2000 năm trước, sau sự phát triển của hệ chữ Brahmi. Ngôn ngữ học hiện đại là một ngành khoa học nghiên cứu tất cả các khía cạnh của ngôn ngữ, xem xét nó từ tất cả các quan điểm lý thuyết đã được nêu ở trên.[51]
Nghiên cứu học thuật về ngôn ngữ được tiến hành trên nhiều lĩnh vực chuyên ngành và từ nhiều góc độ lý thuyết khác nhau, tất cả những thứ đó đều cung cấp các phương pháp tiếp cận hiện đại đối với ngôn ngữ học. Ví dụ, ngôn ngữ học mô tả mổ xẻ ngữ pháp của một ngôn ngữ đơn lẻ; ngôn ngữ học lý thuyết phát triển các lý thuyết, khái niệm ngôn ngữ và xác định bản chất ngôn ngữ dựa trên dữ liệu từ nhiều ngôn ngữ khác nhau; ngôn ngữ học xã hội nghiên cứu cách thức sử dụng ngôn ngữ trong bối cảnh xã hội, để rồi áp dụng ngược sang để nghiên cứu các chức năng xã hội của ngôn ngữ và mô tả ngữ pháp; ngôn ngữ học thần kinh nghiên cứu cách thức ngôn ngữ được xử lý trong bộ não và kiểm định các lý thuyết; ngôn ngữ học tính toán được xây dựng trên nền tảng ngôn ngữ học lý thuyết và mô tả để tạo nên các mô hình tính toán của ngôn ngữ nhằm xử lý ngôn ngữ tự nhiên hoặc thử nghiệm các giả thuyết ngôn ngữ học; và ngôn ngữ học lịch sử lần theo dấu vết lịch sử của từng ngôn ngữ dựa theo các mô tả ngữ pháp, từ vựng và tái tạo lại quan hệ ngôn ngữ thông qua phương pháp so sánh lịch sử.[52]
Nhà ngữ pháp học Ấn Độ thế kỷ thứ 5 TCN Pāṇini, nổi tiếng với công trình liệt kê 3.959 quy tắc hình thái tiếng Phạn, thường được coi là người khởi đầu ngành nghiên cứu ngữ pháp chính thống. Tuy nhiên, người Sumer đã nghiên cứu sự khác biệt giữa ngữ pháp tiếng Sumer và tiếng Akkad từ rất lâu trước đó rồi (vào khoảng năm 1900 TCN). Các truyền thống mô tả ngữ pháp tiếp tục phát triển ở tất cả các nền văn hóa cổ đại tiếp thu chữ viết.[53]
Vào thế kỷ 17, các nhà ngữ pháp Port-Royal của Pháp có ý tưởng cho rằng ngữ pháp của mọi ngôn ngữ là sự phản ánh những điều cơ bản phổ quát của ý nghĩ và chính vì vậy, ngữ pháp tất phải phổ quát. Vào thế kỷ 18, nhà bác ngữ và chuyên gia về Ấn Độ cổ đại người Anh tên là William Jones lần đầu tiên áp dụng phương pháp so sánh lịch sử để nghiên cứu ngôn ngữ và đánh dấu cho sự khởi đầu của ngành ngôn ngữ học so sánh lịch sử.[54] Wilhelm von Humboldt sau đó mở rộng ý tưởng nghiên cứu ngôn ngữ lịch sử từ các ngôn ngữ Ấn-Âu sang các nhóm ngôn ngữ khác. Đầu thế kỷ 20, Ferdinand de Saussure đề xuất khái niệm ngôn ngữ như một hệ thống tĩnh gồm các đơn vị liên kết với nhau, được xác định thông qua sự đối lập giữa chúng.[20]
Saussure đã đặt nền móng cho ngành ngôn ngữ học hiện đại với sự phân biệt giữa phân tích đồng đại (synchrony) và lịch đại (diachrony) trong nghiên cứu ngôn ngữ. Ông cũng đưa ra một số khía cạnh khái niệm cơ bản của phân tích ngôn ngữ, cho đến nay vẫn là đại cương trong nhiều lý thuyết ngôn ngữ học, chẳng hạn sự phân biệt ngữ đoạn-mẫu hình, sự phân biệt langue-parole tách ngôn ngữ thành hai phần là hệ thống trừu tượng (langue) và ngôn ngữ cụ thể hiện thân của hệ thống này (parole).[55]
Vào những năm 1960, Noam Chomsky xây dựng lý thuyết tạo sinh của ngôn ngữ, cho rằng hình thức cơ bản nhất của ngôn ngữ là một tập hợp các quy tắc cú pháp phổ quát ở toàn bộ loài người và đóng vai trò là cơ sở ngữ pháp của tất cả ngôn ngữ loài người. Bộ quy tắc này được ông gọi là Ngữ pháp Phổ quát (Universal Grammar); theo Chomsky, mục tiêu chính của ngôn ngữ học là tìm ra thứ ngữ pháp này. Vì vậy, ông cho rằng ngữ pháp của từng ngôn ngữ riêng lẻ chỉ có tầm quan trọng nhất định do chúng cho phép ta suy ra các quy tắc cơ bản phổ quát mà từ đó tạo ra sự biến đổi ngôn ngữ có thể quan sát được ngày nay.[56]
Đối lập với các lý thuyết hình thức của trường phái tạo sinh, các lý thuyết chức năng của ngôn ngữ cho rằng ngôn ngữ về cơ bản là một công cụ, thế nên cấu trúc của nó được phân tích và hiểu rõ nhất khi ta đi nghiên cữu chức năng của nó. Các lý thuyết hình thức về ngữ pháp tìm cách xác định các yếu tố khác nhau của ngôn ngữ và mô tả sự liên hệ giữa chúng như là hệ thống các quy tắc hoặc các thao tác hình thức, trong khi các lý thuyết chức năng tìm cách xác định các chức năng của ngôn ngữ và sau đó liên hệ chúng với các yếu tố ngôn ngữ thực hiện chức năng đó.[25][chú thích 4] Khuôn khổ ngôn ngữ học nhận thức giải thích ngôn ngữ dưới dạng các khái niệm (đôi khi phổ quát, và đôi khi cụ thể cho một ngôn ngữ cá biệt) ẩn dưới cái hình thức. Ngôn ngữ học nhận thức quan tâm chủ yếu đến cách trí óc tạo ra ý nghĩa thông qua ngôn ngữ.[58]
Nói là phương thức mặc định để diễn đạt ngôn ngữ ở tất cả các nền văn hóa. Việc tạo ra ngôn ngữ nói phụ thuộc vào năng lực điều khiển môi, lưỡi và các thành phần khác của bộ máy thanh âm rất tinh vi; dựa vào khả năng giải mã âm thanh của giọng nói, và dựa vào bộ máy thần kinh cần thiết để tiếp thu và sản xuất ngôn ngữ.[59] Ngành nghiên cứu cơ sở di truyền của ngôn ngữ con người vẫn còn rất non trẻ: gen duy nhất hiện được biết có liên quan đến sự sản xuất ngôn ngữ ở người là FOXP2, mất đoạn gen này sẽ gây gián đoạn chức năng ngôn ngữ ở người.[60]
Bộ não là trung tâm điều phối mọi hoạt động ngôn ngữ; nó kiểm soát cả việc sản xuất nhận thức ngôn ngữ, ý nghĩa và cơ chế tạo ra lời nói. Tuy nhiên, kiến thức của chúng ta về các cơ sở thần kinh liên quan đến ngôn ngữ vẫn còn rất hạn chế mặc cho những tiến bộ đáng kể trong kỹ thuật hình ảnh hiện đại. Ngành ngôn ngữ học chuyên nghiên cứu các khía cạnh thần kinh của ngôn ngữ được gọi là ngôn ngữ học thần kinh.[61]
Công tác ban đầu của ngành ngôn ngữ học thần kinh là nghiên cứu ngôn ngữ ở những người bị tổn thương não, để xem xét các tổn thương ở những khu vực đó ảnh hưởng thế nào đến ngôn ngữ và lời nói. Các nhà khoa học thần kinh vào thế kỷ 19 phát hiện ra 2 khu vực của não bộ liên quan mật thiết đến quá trình xử lý ngôn ngữ của con người. Khu vực đầu tiên là vùng Wernicke, nằm ở phần sau của hồi thái dương trên thuộc bán cầu đại não ưu thế. Những người bị tổn thương vùng não này biểu hiện chứng thất ngôn tiếp thu, tức là tình trạng suy giảm trầm trọng khả năng hiểu ngôn ngữ, nhưng lời nói vẫn giữ nhịp điệu tự nhiên và cấu trúc câu tương đối bình thường. Khu vực thứ hai là vùng Broca, nằm ở phần sau của hồi trán dưới của bán cầu não ưu thế. Những người bị tổn thương khu vực này biểu hiện chứng thất ngôn biểu đạt, tức là họ biết điều mình muốn nói nhưng không tài nào nói ra được.[62] Các đối tượng đôi khi hiểu được cuộc trò chuyện nhưng không thể nói trôi chảy, thường lặp từ của người khác, có biểu hiện nói không đúng ngữ điệu và không có khả năng sử dụng thông tin cú pháp để xác định ý nghĩa của câu. Cả hai loại thất ngôn trên ảnh hưởng đến ngôn ngữ ký hiệu y hệt như ngôn ngữ nói miệng. Chứng thất ngôn biểu đạt khiến cho đối tượng ra ký hiệu chậm hơn và sai ngữ pháp, còn chứng thất ngôn tiếp thu khiến đối tượng tuy ra hiệu trôi chảy, nhưng thường lan man khó hiểu và thường không hiểu được ý của đối phương. Những điều trên cho thấy rằng hai vùng này đặc trưng cho khả năng sử dụng ngôn ngữ, nhưng không liên quan gì đến khả năng tạo ra giọng nói.[63][64]
Với những tiến bộ công nghệ vào cuối thế kỷ 20, các nhà ngôn ngữ học thần kinh đã và đang vận dụng các kỹ thuật không xâm nhập như chụp cộng hưởng từ chức năng (fMRI) và điện sinh lý để nghiên cứu quá trình xử lý ngôn ngữ ở những người khỏe mạnh.[61]
Ngôn ngữ nói dựa vào khả năng vật lý của con người để tạo ra âm thanh, tức là một kiểu sóng dọc truyền trong không khí ở tần số rung động trống tai. Khả năng này phụ thuộc vào sinh lý của cơ quan tạo lời nói ở con người. Những cơ quan này bao gồm phổi, thanh quản, cổ họng, miệng và mũi. Bằng cách điều phối các bộ phận thuộc bộ máy phát âm, luồng khí được điều chỉnh để tạo ra các âm thanh giọng nói khác nhau.[65]
Âm thanh của lời nói có thể được phân tích thành sự kết hợp của các yếu tố đoạn tính và siêu đoạn tính (segmental and suprasegmental). Các phần tử phân đoạn là những phần tử nối tiếp nhau theo trình tự, thường được biểu thị bằng các chữ cái riêng biệt trong bảng chữ cái, chẳng hạn chữ Latinh. Trong lời nói tự do, không có ranh giới rõ ràng giữa phân đoạn này và phân đoạn tiếp, và thường không có bất kỳ khoảng tạm dừng âm thanh nào giữa chúng. Do đó, các phân đoạn được phân biệt bằng các âm riêng biệt là kết quả của các cách phát âm khác nhau (có thể là nguyên âm hoặc phụ âm). Hiện tượng siêu phân đoạn bao gồm các yếu tố như trọng âm (stress), kiểu tạo âm (phonation type), âm sắc (timbre), điệu tính (prosody) hoặc ngữ điệu (intonation), tất cả đều có thể có ảnh hưởng trên nhiều phân đoạn.[66]
Các phân đoạn phụ âm và nguyên âm kết hợp với nhau để tạo thành âm tiết, sau đó kết hợp với nhau để tạo thành ngữ lưu; điều mà có thể được phân biệt bằng khoảng trống giữa hai lần hít vào. Về mặt âm học, các phân đoạn khác nhau đặc trưng bởi các cấu trúc formant khác nhau, được biểu thị trong phổ sóng ghi lại âm thanh. Formant chính là các đỉnh biên độ trong phổ tần số của một âm thanh cụ thể.[66][67]
Nguyên âm là những âm thanh không có ma sát nghe được, gây ra bởi sự thu hẹp hoặc tắc nghẽn một số chặng của đường dẫn âm trên. Chúng khác nhau về chất âm (quality) tùy theo độ mở của môi và vị trí của lưỡi trong khoang miệng.[66] Nguyên âm được gọi là đóng (close) khi môi tương đối khép, chẳng hạn âm [i] (tiếng Việt ký âm là "i" hoặc "y"); được gọi là mở (open) khi môi tương đối mở, chẳng hạn nguyên âm [a] (tiếng Việt ký âm là "a"). Nếu lưỡi nằm về phía sau miệng, chất âm sẽ thay đổi, tạo ra các nguyên âm như [u] (tiếng Việt ký âm là "u"). Chất âm cũng thay đổi tùy thuộc vào độ làm tròn (roundedness) và không làm tròn (unroundedness) của môi, ví dụ sự khác biệt giữa [i] (nguyên âm trước không làm tròn) và [y] (nguyên âm trước làm tròn trong tiếng Đức "ü" ).[68]
Phụ âm là những âm bị ma sát nghe được hoặc bị cản trở tại một số chặng của đường dẫn âm trên. Các phụ âm thay đổi tùy theo vị trí cấu âm (place of articulation), tức là vị trí luồng khí bị cản trở trong đường dẫn âm, thường là ở môi, răng, kẽ kề nướu răng, ngạc cứng, ngạc mềm, lưỡi gà hoặc thanh môn. Mỗi vị trí cấu âm sẽ tạo ra một tập hợp các phụ âm khác nhau, được phân biệt rõ ràng hơn bởi phương pháp cấu âm (manner of articulation) hoặc loại ma sát, kể cả khi đóng hoàn toàn (trong trường hợp đó phụ âm được gọi là âm tắc hoặc dừng), hoặc các mức khẩu độ khác nhau tạo ra âm xát và âm lướt. Phụ âm cũng có thể là hữu thanh hoặc vô thanh (voiced-unvoiced), tùy thuộc vào độ rung động của dây thanh trong quá trình phát âm.
Một số âm cần sự giải phóng luồng khí bằng khoang mũi nên được gọi là âm mũi hoặc âm mũi hóa (nasalized). Một số âm được tạo ra bởi chuyển động lưỡi trong miệng, như các âm l thì được gọi là âm bên (lateral) vì luồng khí chạy dọc hai bên lưỡi, và như các âm r thì được gọi là âm r-tính (rhotic).[67]
Con người có thể tạo ra hàng trăm âm thanh riêng biệt: một số âm xuất hiện rất thường xuyên trong các ngôn ngữ trên thế giới, còn một số âm thanh lại phổ biến hơn trong một số ngữ hệ, khu vực ngôn ngữ nhất định hoặc thậm chí chỉ xuất hiện ở một ngôn ngữ cụ thể.[69]
Ngôn ngữ con người rất linh hoạt trong cách thức truyền tải.[1] Hai phương thức giao tiếp được coi là cơ bản: bằng miệng (lời nói và ra hiệu bằng miệng) và bằng tay (ra hiệu bằng tay và cử chỉ).[chú thích 5] Thông thường, ngôn ngữ bằng miệng đi kèm với cử chỉ và ngôn ngữ ký hiệu đi kèm với mấp máy miệng. Ngoài ra, một số cộng đồng ngôn ngữ sử dụng cả hai phương thức để truyền tải ý nghĩa từ vựng hoặc ngữ pháp, bổ trợ lẫn nhau. Việc sử dụng ngôn ngữ theo hai phương thức như vậy đặc biệt phổ biến trong các thể loại như kể chuyện (ví dụ thủ ngữ Anh-điêng đồng bằng và thủ ngữ thổ dân Úc đi đôi với ngôn ngữ miệng), đôi khi cũng xảy ra trong các cuộc trò chuyện thông thường. Ví dụ: nhiều ngôn ngữ Úc có một tập hợp phong phú các hậu tố cách ngữ pháp (case) cung cấp thông tin chi tiết về công cụ được sử dụng để thực hiện một hành động. Nhiều ngôn ngữ khác thiếu độ chính xác ngữ pháp như vậy ở ngôn ngữ nói, nhưng được bổ sung bằng cử chỉ để truyền đạt thông tin đó. Ví dụ, trong tiếng Iwaidja, câu nói 'anh ta đi săn cá với ngọn đuốc' được nói đơn giản là "anh ấy-săn cá đuốc", nhưng từ 'đuốc' được đi kèm với một cử chỉ biểu thị rằng nó đã được cầm. Một ví dụ nữa, ngôn ngữ nghi lễ Damin có vốn từ vựng truyền miệng chỉ vỏn vẹn vài trăm từ, mỗi từ đều rất chung chung về nghĩa, nhưng được bổ sung bằng cử chỉ để có độ chính xác cao hơn (ví dụ: từ duy nhất chỉ cá là l*i, sẽ đi kèm một cử chỉ để xác định loài cá).[70]
Các phương thức ngôn ngữ thứ cấp bao gồm chữ viết (bao gồm chữ nổi), dấu hiệu (bằng ngôn ngữ được mã hóa thủ công), huýt sáo và đánh trống. Các phương thức ngôn ngữ bậc ba - chẳng hạn semaphore, mã Morse và bảng chữ cái chính tả - truyền tải phương thức viết thứ cấp theo một phương tiện khác. Đối với một số ngôn ngữ chết còn được duy trì cho mục đích nghi lễ hoặc phụng vụ, chữ viết mới là phương thức biểu đạt chính, còn nói chỉ là phương thức thứ yếu.
Nếu được coi như một hệ thống giao tiếp tượng trưng theo truyền thống, ngôn ngữ được xem như bao gồm ba phần: dấu hiệu (sign), ý nghĩa (meaning) và mã (code) cầu nối giữa dấu hiệu và ý nghĩa. Khoa học nghiên cứu quá trình thiết hiệu (phương thức các dấu hiệu và ý nghĩa được liên kết, sử dụng và giải thích) được gọi là ngành ký hiệu học. Dấu hiệu có thể bao gồm âm thanh, cử chỉ, chữ cái hoặc biểu tượng, tùy thuộc vào ngôn ngữ được nói, ra hiệu hay viết và chúng có thể được kết hợp thành các dấu hiệu phức tạp hơn, chẳng hạn từ và cụm từ. Khi được sử dụng để giao tiếp, một dấu hiệu sẽ được mã hóa và truyền đi bởi người gửi (sender) thông qua một kênh (channel) đến người nhận (receiver) phải giải mã nó.[71]
Một số đặc tính tách biệt ngôn ngữ con người khỏi các hệ thống giao tiếp khác, đó là: tính võ đoán (arbitrariness) của dấu hiệu ngôn ngữ, tức là ta không thể lường trước mối liên kết giữa dấu hiệu và ý nghĩa; tính sóng đôi (duality) của hệ thống ngôn ngữ, tức là những cấu trúc ngôn ngữ lớn hơn được xây dựng từ sự kết hợp các yếu tố nhỏ hơn, ví dụ: âm thanh xây dựng từ ngữ, rồi từ ngữ xây dựng ngữ đoạn; tính phân lập (discreteness) của các yếu tố ngôn ngữ, tức là các yếu tố cấu thành dấu hiệu ngôn ngữ là các đơn vị rời rạc, ví dụ: âm thanh và từ ngữ, có thể được phân biệt và tái sắp xếp theo các kiểu mẫu khác nhau; và tính năng sản (productivity) của hệ thống ngôn ngữ, tức là trên lý thuyết, một tổ hợp ngôn từ vô hạn có thể được sáng tạo từ hữu hạn yếu tố ngôn ngữ.[71]
Các quy tắc mà các dấu hiệu tuân theo để kết hợp và tạo thành từ ngữ/ngữ đoạn được gọi là cú pháp hoặc ngữ pháp. Ý nghĩa ẩn sau của từng dấu hiệu, hình vị, từ ngữ, ngữ đoạn và văn bản được gọi là ngữ nghĩa.[72] De Saussure là nhà ngôn ngữ học tiên phong cho phương pháp phân chia ngôn ngữ thành các hệ thống ký hiệu và ý nghĩa riêng biệt như vậy, mà hiện nay được áp dụng trong hầu hết các ngành ngôn ngữ học.[73]
Các ngôn ngữ biểu đạt ý nghĩa thông qua sự liên hệ dạng ký hiệu (sign form) với một ý nghĩa hoặc nội dung. Dạng dấu hiệu phải là thứ có thể nhận biết được, chẳng hạn âm thanh, hình ảnh hoặc cử chỉ, sau đó được liên hệ đến một ý nghĩa cụ thể dựa theo quy ước xã hội. Vì mối quan hệ dạng ký hiệu-ý nghĩa lệ thuộc vào quy ước xã hội, các dấu hiệu ngôn ngữ có thể coi là tùy ý, tức là quy ước đó được thiết lập về mặt xã hội và lịch sử, chứ không phải về mặt tự nhiên giữa một dạng dấu hiệu cụ thể và ý nghĩa của nó.[20]
Như vậy, ngôn ngữ phải có vốn dấu hiệu liên quan đến ý nghĩa cụ thể. Ví dụ, ký hiệu tiếng Việt "chó" làm ta liên tưởng đến một thành viên của loài Canis familris. Một mảng các dấu hiệu tùy ý kết nối với các ý nghĩa cụ thể được gọi là từ vựng (lexicon), còn từng ký hiệu đơn lẻ kết nối với từng ý nghĩa một được gọi là từ vị (lexeme). Chưa chắc mọi ý nghĩa trong một ngôn ngữ đều được thể hiện bằng các từ đơn. Thông thường, các khái niệm ngữ nghĩa được gắn với hình thái hoặc cú pháp của ngôn ngữ dưới dạng các đặc điểm ngữ pháp (ví dụ: đuôi -s chỉ số nhiều ở tiếng Anh, v.v).[74]
Mọi ngôn ngữ đều có một cấu trúc ngữ nghĩa gọi là vị ngữ, đảm nhận chức năng xác định thuộc tính, trạng thái hoặc hành động. Ngữ nghĩa học có thể được định nghĩa là ngành khoa học nghiên cứu về phương thức người nói hoặc người thông dịch gán giá trị chân lý cho các phát biểu; do đó, ý nghĩa có thể được hiểu là quá trình mà một vị ngữ phát biểu đúng hoặc sai về một thực thể, ví dụ: "[x [là y]]" hay "[x [làm y]]". Gần đây, mô hình ngữ nghĩa học này đã được bổ sung với nhiều mô hình ý nghĩa năng động hơn, kết hợp thêm kiến thức về ngữ cảnh chung, trong đó một dấu hiệu được diễn giải tạo ra ý nghĩa. Những mô hình kiểu vậy được nghiên cứu trong lĩnh vực ngữ dụng học.[74]
Tùy thuộc vào phương thức biểu đạt, cấu trúc ngôn ngữ có thể dựa trên hệ thống âm thanh (lời nói), cử chỉ (ngôn ngữ ký hiệu), đồ họa hoặc biểu tượng xúc giác. Cách thức ngôn ngữ sử dụng âm thanh hoặc biểu tượng để xây dựng ý nghĩa được nghiên cứu trong ngành âm vị học.[75]
Âm thanh thuộc một phần của hệ thống ngôn ngữ được gọi là âm vị (phoneme).[76] Âm vị là loại âm thanh trừu tượng, được định nghĩa là đơn vị nhỏ nhất trong ngôn ngữ có thể dùng để phân biệt ý nghĩa của một cặp tối thiểu (minimal pair). Ví dụ trong tiếng Việt, tương [tɨəŋ˧˧] và thương [tʰɨəŋ˧˧] tạo thành một cặp tối thiểu, trong đó sự phân biệt /t/ và /th/ tạo ra hai từ khác hẳn nhau về nghĩa; tương tự trong tiếng Anh, bat [bæt] 'dơi' và pat [pʰæt] 'vỗ' tạo thành cặp tối thiểu do sự phân biệt /b/ và /p/. Tuy nhiên, mỗi ngôn ngữ tương phản âm thanh theo những cách khác nhau. Nếu như một ngôn ngữ không phân biệt giữa phụ âm hữu thanh và vô thanh, thì âm [p] và [b] (nếu xuất hiện) có thể được coi là một âm vị duy nhất và hai từ sẽ có cùng nghĩa. Giống tiếng Hàn và tiếng Hindi, tiếng Anh không phân biệt ngữ âm giữa phụ âm bật hơi và không bật hơi: /p/ trong spin [spɪn] và /p/ trong pin [pʰɪn] được coi là hai cách phát âm khác nhau của cùng một âm vị (hai âm này do vậy sẽ được gọi là tha âm vị (allophone)), trái lại trong tiếng Quan Thoại thì lại phân biệt giữa [pʰá] 'cúi' và [pá] 'tám' (dấu sắc của á ở đây tượng trưng cho thanh điệu cao).[77]
Mọi ngôn ngữ nói đều có âm vị thuộc hai loại cơ bản là nguyên âm và phụ âm, có thể kết hợp lại thành âm tiết (syllable).[66] Bên cạnh phụ âm và nguyên âm, một số ngôn ngữ sử dụng nhiều đặc điểm khác để truyền đạt và phân biệt ý nghĩa, ví dụ như trọng âm (stress), cao độ (pitch), thời lượng (duration) và thanh điệu (tone). Bởi vì những hiện tượng này hoạt động bên ngoài mức độ đoạn tính đơn lẻ, chúng được gọi là siêu phân đoạn.[78] Một số ngôn ngữ có rất ít âm vị, chẳng hạn tiếng Rotokas và tiếng Pirahã sở hữu lần lượt 11 và 10 âm vị, trong khi một số lại có rất nhiều âm vị, chẳng hạn tiếng Taa sở hữu tận 141 âm vị.[77] Trong nghiên cứu ngôn ngữ ký hiệu, thứ tương đương với âm vị được gọi là hiệu vị (chereme), tức là các yếu tố cơ bản của cử chỉ chẳng hạn hình dạng, hướng, vị trí và chuyển động của tay, tương ứng với phương pháp cấu âm trong khẩu ngữ.[79][80][81]
Hệ thống chữ viết là hệ thống sử dụng các ký hiệu trực quan để đại diện cho ngôn ngữ nói. Bảng chữ cái Latinh (và những bảng chữ cái dựa theo hoặc bắt nguồn từ nó) ban đầu được tạo ra nhằm ký âm đơn lẻ, vì vậy những cộng đồng ngôn ngữ sử dụng bảng Latinh phải ghép các chữ cái lại để tạo thành một từ hoàn chỉnh. Trong các hệ chữ âm tiết (syllabic script), chẳng hạn hệ chữ Inuktitut, mỗi ký hiệu đại diện cho toàn bộ một âm tiết. Trong các hệ chữ tượng hình (logographic script), mỗi dấu hiệu đại diện cho toàn bộ một từ[82] và hầu như không gợi ý cách phát âm của từ đó.
Bởi các ngôn ngữ đều có số lượng từ vựng rất lớn, không một hệ chữ tượng hình thuần túy nào tồn tại. Ngôn ngữ viết mô phỏng lại sự tiếp nối của các âm thanh và lời nói bằng cách sắp xếp các ký hiệu theo một khuôn mẫu, tuân theo một chiều viết nhất định. Chiều viết của một hệ chữ hoàn toàn tùy thuộc theo quy ước. Một số hệ chữ viết theo chiều ngang (từ trái sang phải giống hệ Latinh hoặc từ phải sang trái giống hệ Ả Rập), còn một số hệ khác viết theo chiều dọc, ví dụ như từ trên xuống dưới giống hệ chữ Hán truyền thống. Một số hệ viết theo các hướng ngược nhau xen kẽ các dòng, và một số hệ, chẳng hạn hệ Maya cổ, có thể được viết theo cả hai hướng và sử dụng các ký hiệu đặc biệt để chỉ dẫn người đọc hướng viết.[83]
Các nhà ngôn ngữ học đã phát triển bảng chữ cái phiên âm quốc tế (IPA) để đại diện cho tất cả các đơn vị âm thanh rời rạc góp phần tạo nên ý nghĩa trong tất cả các ngôn ngữ nói miệng của con người.[84]
Ngữ pháp là bộ quy tắc của một ngôn ngữ cụ thể quy định sự kết ghép các các hình vị lại để tạo thành một ngữ lưu. Nếu hình vị được tự do di chuyển trong một ngữ lưu, chúng được gọi là từ; còn nếu bị ràng buộc với các từ hoặc hình vị khác thì gọi là phụ tố. Các quy tắc cấu trúc bên trong của từ được gọi là hình thái còn quy tắc cấu trúc bên trong của các cụm từ và câu thì gọi là cú pháp.[85]
Ngữ pháp có thể được mô tả là một hệ thống các phạm trù (category) và một tập hợp các quy tắc kết hợp các phạm trù đó để tạo thành các khía cạnh ý nghĩa khác nhau.[86] Từng ngôn ngữ sẽ có một kiểu mã hóa ý nghĩa theo phạm trù hoặc từ vị riêng. Tuy nhiên, vẫn có một số đặc điểm nhất quán đến mức gần như phổ quát ở mọi ngôn ngữ.[87]
Các nhà ngôn ngữ học chia các thành phần trong câu nói thành các lớp từ theo chức năng và vị trí của chúng so với các phần khác của một câu. Ví dụ, tất cả các ngôn ngữ đều phân biệt giữa nhóm từ biểu thị nguyên mẫu sự vật-khái niệm và nhóm từ biểu thị nguyên mẫu hành động-sự kiện. Nhóm từ chỉ sự vật-khái niệm, bao gồm các từ tiếng Việt như "chó" và "nhạc", được gọi là danh từ. Nhóm từ chỉ hành động-sự kiện, bao gồm "nghĩ" và "hát", được gọi là động từ. Một nhóm từ phổ biến nữa là tính từ, mô tả đặc tính hoặc phẩm chất của các danh từ, chẳng hạn "chua" hoặc "lớn". Lớp từ "mở" nếu ta luôn có thể thêm từ mới vào lớp đó, nhưng "đóng" nếu chỉ có một số lượng cố định từ ngữ ở lớp đó. Trong tiếng Anh, lớp đại từ là lớp đóng còn lớp tính từ là lớp mở, do vô số tính từ có thể phái sinh từ động từ (ví dụ: "saddened") hoặc danh từ (ví dụ: thêm hậu tố -like vào sau một danh từ có thể tạo ra các tính từ, như trong "noun-like" 'giống danh từ'). Trong các ngôn ngữ khác như tiếng Hàn, điều này trái lại, số lượng đại từ là bất định nhưng số lượng tính từ lại cố định.[88]
Mỗi từ loại đảm nhận những chức năng khác nhau của ngữ pháp. Ví dụ, động từ cấu thành vị ngữ, còn danh từ cấu thành tham tố (argument) của vị ngữ; ví dụ trong câu "Sally runs", vị ngữ sẽ là "runs" vì nó chỉ trạng thái cụ thể của tham tố "Sally". Một số động từ như "curse" có thể liên kết với 2 tham tố, ví dụ: "Sally cursed John". Một vị ngữ chỉ có thể nhận một tham tố duy nhất thì gọi là nội động từ (intransitive verb), còn nếu có thể nhận hai tham tố thì gọi là ngoại động từ (transitive verb).[89]
Ngoài ra, ngôn ngữ còn có rất nhiều từ loại, chẳng hạn: liên từ để nối các mệnh đề, mạo từ để đánh dấu tính xác định của danh từ, thán từ để bộc lộ cảm xúc, biểu ý từ (ideophone) để gợi lên ý tưởng bằng âm thanh, giới từ để xác định vị trí của sự vật trong không gian, loại từ để phân loại danh từ theo hình dáng hoặc phẩm chất của sự vật, v.v.
Trong ngôn ngữ học, việc nghiên cứu cấu trúc bên trong của các từ phức và quá trình mà các từ ngữ hình thành được gọi là hình thái học. Trong hầu hết các ngôn ngữ, từ phức có thể được xây dựng từ nhiều hình vị. Ví dụ, từ "unexpected" trong tiếng Anh có thể được phân tích thành ba hình vị là "un-", "expect" và "-ed".[90]
Hình vị có khả năng đứng độc lập gọi là căn tố (root), còn nếu phải đi kèm với các hình vị khác thì gọi là phụ tố (affix). Phụ tố có thể được phân loại dựa theo vị trí của chúng so với căn tố: tiền tố (prefix), hậu tố (postfix) và trung tố (infix). Phụ tố có vai trò thay nghĩa hoặc bổ nghĩa cho căn tố. Trong một số ngôn ngữ, từ ngữ có thể biến âm để biểu thị một ý nghĩa khác; ví dụ trong tiếng Anh, từ "run" ở thì quá khứ là "ran". Hiện tượng biến âm đó được gọi là ablaut. Ngoài ra, hình thái học phân biệt giữa hai khái niệm biến tố (thay nghĩa hoặc bổ nghĩa một căn tố) và phái sinh (tạo ra từ mới dựa trên một căn tố hiện có). Trong tiếng Anh, động từ "sing" có dạng biến tố thì quá khứ là "sung" và dạng phái sinh kèm hậu tố chỉ nghề nghiệp "-er" là "singer".[91]
Dựa vào hình thái-cú pháp, ngôn ngữ có thể được phân thành 4 loại sau đây:
Nhiều hình thái ngôn ngữ thể hiện tính tham chiếu chéo các từ trong một câu, gọi là sự phù ứng (agreement). Ví dụ trong nhiều ngôn ngữ Ấn-Âu, các tính từ phải tham chiếu chéo với danh từ mà chúng bổ nghĩa về lượng, cách và giống. Chính vì vậy, từ bonus trong tiếng Latinh phải dùng sau một danh từ giống đực, số ít và ở dạng cách. Trong nhiều ngôn ngữ hỗn nhập, các động từ phải tham chiếu chéo với chủ thể và đối tượng. Ví dụ trong cụm từ tiếng Basque ikusi nauzu, nghĩa là "bạn đã thấy tôi", động từ phụ trợ thì quá khứ n-au-zu (tương tự như "do" trong tiếng Anh) phù ứng với chủ ngữ (bạn) qua tiền tố n- và phù ứng với đối tượng (tôi) qua hậu tố -zu. Giải nghĩa từng hình vị của từ này sẽ là "thấy bạn-làm thì quá khứ-tôi".[93]
Một cách truyền đạt ý nghĩa khác của ngôn ngữ là thông qua thứ tự các từ trong một câu, đó chính là cú pháp. Các quy tắc cú pháp của một ngôn ngữ cho ta biết tại sao "I love you" là câu có nghĩa, nhưng "*love you I" thì không.[chú thích 6] Các quy tắc cú pháp xác định trật tự từ và sự ràng buộc cấu trúc câu, và làm thế nào những ràng buộc đó góp phần tạo nên ý nghĩa.[95] Ví dụ, trong tiếng Anh, hai câu: "the slaves were cursing the master" [Đám nô lệ chửi (thì quá khứ tiếp diễn) tên chủ nô] và "the master was cursing the slaves" [Tên chủ nô chửi (thì quá khứ tiếp diễn) đám nô lệ] có nghĩa khác nhau bởi vì chủ ngữ là danh từ đứng trước động từ, còn tân ngữ là danh từ đứng sau động từ. Trái lại trong tiếng Latin, cả "Dominus servos vituperabat" và "Servos vituperabat dominus" đều có nghĩa là [Chủ nhân khiển trách (thì quá khứ tiếp diễn) đám nô lệ] bởi vì từ servos 'nô lệ' đang ở dạng đối cách (accusative case, biểu thị vị ngữ) và dominus 'chủ nhân' đang ở dạng danh cách (nominative case, biểu thị chủ ngữ).[96]
Tiếng Latin sử dụng hình thái để phân biệt giữa chủ thể và đối tượng, còn tiếng Anh sử dụng trật tự từ. Một ví dụ khác về tầm ảnh hưởng của quy tắc cú pháp làm thay đổi ý nghĩa của câu là quy tắc đảo ngược trật tự từ trong câu hỏi, xuất hiện ở nhiều ngôn ngữ. Quy tắc này giải thích tại sao trong tiếng Anh, câu "John is talking to Lucy" khi chuyển thành câu hỏi phải là "Who is John talking to?" (1), chứ không phải "John is talking to who?" (2). Tất nhiên, câu (2) đôi khi được sử dụng để thay đổi sắc thái câu hỏi, nhấn mạnh sự nghi vấn vào "who?". Ngoài ra, cú pháp còn bao gồm các quy tắc kết hợp các ngữ đoạn ở những vị trí khác nhau lại để tạo thành một câu hoàn chỉnh. Câu có thể được coi là một cấu trúc dạng cây, tách ra thành các đơn vị ngữ đoạn nhỏ hơn ở những cấp khác nhau.[97] Hình bên trên minh họa cú pháp đã phân tích của câu "the cat sat on the mat" tiếng Anh, bao gồm danh ngữ (noun phrase), động từ, và giới ngữ (prepositional phrase). Đoạn giới ngữ có thể được phân tích tiếp thành một giới từ và một danh ngữ, và danh ngữ đó lại có thể phân tích tiếp thành một mạo từ và một danh từ.[98]
Lý do câu có thể được phân tích thành các ngữ đoạn là bởi vì mỗi ngữ đoạn hoàn toàn có thể di chuyển trong câu như một thành phần duy nhất nếu như một thao tác cú pháp nào đó được thực hiện. "The cat" và "on the mat" là hai ngữ đoạn/cụm từ, vì chúng được coi là các đơn vị riêng lẻ nếu người nói/người viết quyết định đưa giới ngữ lên đầu câu để nhấn mạnh vị trí: "[And] on the mat, the cat sat".[98] Các khuôn khổ hoặc trường phái hình thức và chức năng khác nhau sẽ có lý thuyết mô tả cú pháp câu riêng, do vậy sự phân tích cấu trúc câu còn dựa theo từng trường phái lý thuyết ngôn ngữ.[25]
Ngôn ngữ có thể được phân loại theo các kiểu hình ngữ pháp. Các ngôn ngữ dù có thuộc các ngữ hệ khác nhau vẫn thường có các đặc điểm chung, có xu hướng tương quan với nhau.[99] Ví dụ, ngôn ngữ có thể được phân loại dựa trên thứ tự từ cơ bản của chúng, tức là thứ tự tương đối của động từ với các thành phần của một câu thông thường. Trong tiếng Anh, thứ tự từ cơ bản là SVO (chủ–động–tân): "Snake bit the man" (rắn cắn người), nhưng nếu nói một câu tương tự trong thổ ngữ Gamilaraay Úc thì phải theo trật tự SOV (chủ-tân-động): d̪uyugu n̪ama d̪ayn yiːy (rắn người cắn).[100] Kiểu thứ tự từ được coi là một tham số (parameter) loại hình vì kiểu trật tự từ cơ bản còn tương ứng với các tham số cú pháp khác, chẳng hạn thứ tự tương đối của danh từ và tính từ, hoặc sự sử dụng tiền giới từ (preposition) hoặc hậu giới từ (postpositions). Những mối tương quan kiểu vậy được gọi là sự phổ niệm tất suy hay phổ niệm ngầm (implicational universal).[101] Hầu hết, không phải tất cả, các ngôn ngữ có thứ tự câu SOV đều sử dụng hậu giới từ thay vì tiền giới từ, và tính từ thì thường đứng trước danh từ.[102]
Mọi ngôn ngữ đều có các cấu trúc Chủ ngữ, Động từ và Tân ngữ, nhưng chúng lại khác nhau ở cách phân loại các mối quan hệ giữa tác thể và hành động. Tiếng Anh thuộc loại hình thái chủ cách-đối cách (nominative-accusative): trong các mệnh đề vị từ ngoại động tiếng Anh, chủ ngữ của câu nội động "I run" lẫn câu ngoại động "I love you" được coi là như nhau, được thể hiện bằng cùng một đại từ I "tôi". Một số ngôn ngữ khác thuộc loại hình thái khiển cách (ergative), ví dụ tiếng Gamilaraay, lại phân biệt giữa Tác thể (Agent) và Bị thể (Patient). Trong các ngôn ngữ khiển cách, tham tố đơn lẻ trong một câu nội động, chẳng hạn "I run", lại giống hệt như bị thể trong một câu ngoại động, tức là "me run" = "I run". Chỉ trong các câu ngoại động thì từ tương đương với "I" mới được sử dụng.[100] Do vậy, các vai trò ngữ nghĩa có thể ánh xạ lên các mối quan hệ ngữ pháp theo những cách khác nhau, gộp một chủ thể nội động hoặc với Tác thể (kiểu đối cách) hoặc Bị thể (kiểu khiển cách) hoặc thậm chí làm cho ba vai trò khác hẳn nhau, thì được gọi là kiểu ba bên.[103]
Các đặc điểm giống nhau giữa các ngôn ngữ thuộc cùng một loại hình có thể phát sinh hoàn toàn độc lập. Sự đồng đẳng đó có thể là do các quy luật phổ quát chi phối cấu trúc của ngôn ngữ tự nhiên, tức là "phổ niệm ngôn ngữ", hoặc chúng có thể là kết quả của sự hội tụ ngôn ngữ sinh ra bởi các vấn đề giao tiếp lặp đi lặp lại mà con người sử dụng ngôn ngữ để giải quyết.[26]
Mặc dù con người có khả năng học bất kỳ ngôn ngữ nào, nhưng họ chỉ có thể làm được điều đó nếu họ lớn lên trong môi trường mà ngôn ngữ đó tồn tại và được người khác sử dụng. Chính vì vậy, ngôn ngữ phải phụ thuộc vào một cộng đồng ngôn ngữ (speech community), trong đó, trẻ em tiếp thu ngôn ngữ từ người lớn và bạn bè xung quanh chúng, rồi chúng tiếp tục truyền ngôn ngữ cho con cái chúng sau này. Ngôn ngữ là công cụ để giao tiếp và giải quyết rất nhiều nhiệm vụ xã hội. Các khía cạnh của việc ngữ dụng đã thích nghi cho mục đích này.[26] Do cách thức truyền ngôn ngữ giữa các thế hệ và trong một cộng đồng, ngôn ngữ luôn biến đổi và đa dạng hóa thành các ngôn ngữ mới, hoặc hội tụ lại do tiếp xúc ngôn ngữ. Các quá trình này có phần giống với tiến hóa sinh học, trong đó quá trình phái sinh với sự biến đổi dẫn đến sự hình thành cây phát sinh chủng loại.[104]
Tuy nhiên, ngôn ngữ khác với sinh vật ở chỗ: ngôn ngữ dễ dàng tiếp nhận yếu tố từ các ngôn ngữ khác thông qua quá trình khuếch tán khi những cộng đồng ngôn ngữ khác biệt tiếp xúc với nhau. Con người đôi khi nói nhiều hơn một ngôn ngữ, tiếp thu ngôn ngữ mẹ đẻ hoặc nhiều ngôn ngữ khi còn nhỏ, hoặc học ngôn ngữ mới khi lớn lên. Vì sự tiếp xúc ngôn ngữ ngày càng tăng trong thế giới toàn cầu hóa, nhiều ngôn ngữ nhỏ đang lâm nguy bởi người nói chuyển sang dùng ngôn ngữ khác mà cho họ cơ hội tham gia vào cộng đồng ngôn ngữ lớn hơn và có ảnh hưởng hơn.[6]
Từ ngữ và ký hiệu thường có nhiều ý nghĩa khác nhau, tùy thuộc vào bối cảnh xã hội mà chúng được sử dụng. Đơn cử là quá trình trực chỉ (deixis), mô tả cách thức mà một số từ ngữ nhất định đề cập đến các thực thể thông qua mối quan hệ giữa chúng với một điểm cụ thể trong thời gian và không gian. Ví dụ một số từ đảm nhận chức năng như vậy là: "tôi" (chỉ người đang nói), "bây giờ" (chỉ thời điểm nói), và "đây" (chỉ vị trí nói). Trực chỉ là một phần quan trọng trong cách chúng ta sử dụng ngôn ngữ để chỉ ra các thực thể của thế giới xung quanh.[105] Ý nghĩa của ký hiệu cũng có thể bị thay đổi theo thời gian, bởi sự biến hóa không ngừng của các quy ước ra hiệu. Ngành ngôn ngữ học nghiên cứu sự biến đổi ý nghĩa trong bối cảnh xã hội được gọi là ngữ dụng học. Ngành này chủ yếu quan tâm đến các mô hình của việc sử dụng ngôn ngữ và sự tạo nên ý nghĩa của những mô hình đó. Trong mọi ngôn ngữ, các biểu thức (expression) không chỉ có chức năng truyền đạt thông tin mà còn có cả chức năng hành động (action). Một số hành động nhất định chỉ có thể được thực hiện thông qua ngôn ngữ, điều mà vẫn có thể tác động một cách hữu hình lên thực thể, chẳng hạn "đặt tên" (hành động tạo ra từ riêng để chỉ một số thực thể) hoặc "tuyên bố hai người là vợ là chồng" (hành động tạo ra một khế ước xã hội về hôn nhân). Những hành động bằng ngôn ngữ nêu trên được các nhà ngữ dụng học gọi là ngôn hành (speech act), và chúng cũng có thể được thực hiện thông qua văn viết hoặc thủ ngữ.[106]
Hình thức biểu đạt ngôn ngữ thường không tương ứng với ý nghĩa mà nó thực sự có trong bối cảnh xã hội. Ví dụ, tại bàn ăn, một người hỏi bằng tiếng Anh: "Can you reach the salt?", tức là ở đây, ý của anh ta không phải là muốn biết chiều dài sải tay của người kia, mà là đề nghị người kia một cách lịch sự rằng lấy hộ anh ấy lọ muối. Do vậy, ý nghĩa của câu từ còn phải phụ thuộc vào ngữ cảnh; khái niệm này được các nhà ngữ dụng học gọi là hàm ngôn hội thoại (conversational implicature). Những quy tắc xã hội của việc sử dụng ngôn ngữ chỉ phù hợp trong một số tình huống nhất định và cách thức phát biểu được hiểu thế nào trong mối quan hệ với bối cảnh khác nhau giữa từng cộng đồng văn hóa, và việc học các quy tắc đó đóng vai trò rất lớn trong năng lực giao tiếp ngôn ngữ của một người.[107]
Tất cả con người khỏe mạnh, phát triển bình thường đều có khả năng học cách sử dụng ngôn ngữ. Trẻ em tiếp thu bất kỳ ngôn ngữ nào được sử dụng đáng kể xung quanh chúng, bất kể là thủ ngữ hay khẩu ngữ.[108] Quá trình tiếp thu ngôn ngữ của trẻ em được gọi là thụ đắc ngôn ngữ đầu tiên (first-language acquisition), vì không giống như nhiều quá trình tiếp thu khác, sự "thụ đắc" không cần phải được giảng dạy mà diễn ra thụ động. Trong cuốn The Descent of Man, nhà tự nhiên học Charles Darwin gọi quá trình này là "an instinctive tendency to acquire an art" (một xu hướng bản năng nhằm tiếp thu nghệ thuật).[18]
Thụ đắc ngôn ngữ đầu tiên diễn ra theo một trình tự khá đều đặn, mặc dù có sự khác biệt về thời điểm của từng giai đoạn cụ thể ở trẻ sơ sinh phát triển bình thường. Các nghiên cứu được công bố vào năm 2013 chỉ ra rằng thai nhi có khả năng tiếp thu ngôn ngữ ở một mức độ nào đó.[109][110] Ngay từ khi sinh ra, trẻ sơ sinh ưu tiên phản ứng với lời nói con người hơn các âm thanh khác. Khoảng 1 tháng tuổi, trẻ đã có khả năng phân biệt giữa các âm tố khác nhau. Khoảng 6 tháng tuổi, trẻ sẽ bắt đầu bập bẹ, tạo ra các âm tố hoặc ký hiệu của ngôn ngữ sử dụng xung quanh chúng. Khoảng từ 12-18 tháng tuổi, trẻ hình thành khái niệm từ; vốn từ vựng trung bình của một đứa trẻ lúc 18 tháng tuổi rơi vào khoảng 50 từ. Thuật ngữ để chỉ những ngữ lưu đầu tiên của trẻ là holophrasis (nghĩa đen là "toàn bộ câu"), tức là những ngữ lưu chỉ sử dụng một từ để truyền đạt một số ý tưởng. Vài tháng sau khi đứa trẻ bắt đầu tạo ra từ, chúng sẽ nói các ngữ lưu hai từ và trong vòng vài tháng nữa sẽ bắt đầu tạo ra các câu điện tín (telegraphic speech), tức những câu đơn giản về mặt ngữ pháp so với câu nói của người lớn nhưng vẫn có kết cấu cú pháp thông thường. Khoảng từ 3-5 tuổi, khả năng nói hoặc ra hiệu của trẻ được tinh chỉnh đến mức giống với ngôn ngữ của người lớn.[111][112]
Tiếp thu ngôn ngữ thứ hai và thứ ba/bốn/v.v có thể diễn ra ở mọi lứa tuổi, thông qua sự "phơi bày" trong cuộc sống hàng ngày hoặc ôn luyện tại các khóa học. Trẻ em học ngôn ngữ thứ hai có nhiều khả năng đạt được sự trôi chảy như người bản xứ không như người lớn, nhưng tựu trung, rất hiếm khi người nói ngôn ngữ thứ hai có nói hoàn toàn giống như người bản ngữ. Một sự khác biệt quan trọng giữa tiếp thu ngôn ngữ đầu tiên và tiếp thu ngôn ngữ bổ sung là quá trình tiếp thu ngôn ngữ bổ sung bị ảnh hưởng bởi các ngôn ngữ mà người học đã biết.[113]
Ngôn ngữ còn được hiểu là tập hợp các quy tắc nói cụ thể của một cộng đồng cụ thể, và là một phần của nền văn hóa bao trùm cộng đồng nói chúng. Các ngôn ngữ không chỉ khác nhau ở mặt phát âm, từ vựng và ngữ pháp; mà còn khác "văn hóa nói". Con người sử dụng ngôn ngữ như một phương tiện báo hiệu bản sắc nhóm, cũng như nhấn mạnh sự khác biệt với các nhóm khác. Ngay cả giữa những người nói chung một ngôn ngữ, vẫn có sự khác biệt trong lối nói và mỗi lối nói đó báo hiệu sự liên kết với một nhóm cụ thể trực thuộc nền văn hóa lớn hơn. Các nhà ngôn ngữ học, nhân học, và đặc biệt là các nhà xã hội học, dân tộc học và nhân học ngôn ngữ chuyên nghiên cứu các lối nói khác nhau giữa các cộng đồng ngôn ngữ.[114]
Các nhà ngôn ngữ học sử dụng thuật ngữ "biến thể" (varieties) để chỉ lối cách khác nhau khi nói cùng một ngôn ngữ. Thuật ngữ này bao hàm các phương ngữ (dialect) được xác định theo địa lý hoặc văn hóa xã hội, cũng như các biệt ngữ nghề nghiệp (jargon) hoặc phong cách (style) của các nền văn hóa phụ. Các nhà nhân học ngôn ngữ và các nhà xã hội học về ngôn ngữ định nghĩa phong cách giao tiếp là phương thức ngôn ngữ được sử dụng và thông hiểu trong một nền văn hóa cụ thể.[115]
Bởi vì các quy tắc sử dụng ngôn ngữ được chia sẻ bởi các thành viên của một nhóm cụ thể, phong cách giao tiếp cũng trở thành một cách thể hiện và xây dựng bản sắc nhóm. Sự khác biệt về ngôn ngữ có thể trở thành dấu hiệu rõ rệt của sự phân chia giữa các nhóm xã hội; ví dụ, giọng cụ thể của một thứ tiếng (accent) có thể ngụ ý nhóm dân tộc hoặc tầng lớp xã hội mà người nói thuộc về, quê hương hoặc địa vị của người nói, hoặc thứ bậc thành thạo thứ tiếng của người nói. Những sự khác biệt này không phải là một phần của hệ thống ngôn ngữ, nhưng vẫn là một phần quan trọng trong cách con người sử dụng ngôn ngữ như một công cụ xã hội để xây dựng các nhóm.[116]
Tuy vậy, nhiều ngôn ngữ cũng có các quy ước ngữ pháp báo hiệu vị trí xã hội của người nói trong mối quan hệ với người khác thông qua việc sử dụng các âm vực có liên quan đến thứ bậc hoặc phân cấp xã hội. Trong nhiều ngôn ngữ, có sự khác biệt về văn phong hoặc thậm chí ngữ pháp giữa lối nói của đàn ông và đàn bà, giữa các nhóm tuổi hoặc giữa các tầng lớp xã hội, chẳng hạn nhiều ngôn ngữ sử dụng các từ khác nhau tùy vào người nghe. Ví dụ, trong tiếng Dyirbal, một người đàn ông đã kết hôn phải sử dụng một nhóm từ đặc biệt để chỉ các vật dụng hàng ngày khi có sự hiện diện của mẹ vợ.[117] Một số nền văn hóa có những hệ thống "trực chỉ xã hội" (social deixis) rất phức tạp, tức là những hệ thống báo hiệu khoảng cách xã hội thông qua phương tiện ngôn ngữ.[118] Trong tiếng Anh, trực chỉ xã hội được thể hiện chủ yếu thông qua sự phân biệt xưng hô khi gọi một số người bằng tên riêng và những người khác bằng họ; và các chức danh như "Mrs", "boy", "Mr" hoặc "Your Honor". Ở các ngôn ngữ khác, những hệ thống như vậy có thể rất phức tạp và hệ thống hóa bằng toàn bộ ngữ pháp và từ vựng. Ví dụ, trong các ngôn ngữ Đông Á như tiếng Thái, tiếng Miến Điện hay tiếng Java, đại từ xưng hô phụ thuộc vào cấp bậc, trật tự hay tôn ti của người nói và đối phương, ví dụ: động vật và trẻ em xếp hạng thấp nhất, còn các vị thần và hoàng tộc sẽ đứng cao nhất.[118]
Suốt chiều dài lịch sử, nhiều kiểu cách biểu diễn ngôn ngữ bằng phương tiện trực quan đã được phát minh. Chúng được gọi là hệ chữ viết.
Chữ viết khiến ngôn ngữ trở nên hữu ích hơn đối với con người. Chữ viết cho phép con người lưu trữ số lượng lớn thông tin mà có thể dùng lại/kích hoạt lại sau này, đồng thời nó cho phép con người giao tiếp vượt khoảng cách địa lý và thời gian, điều mà trước đó bất khả thi. Nhiều ngôn ngữ sử dụng các thể loại, phong cách và âm vực khác nhau giữa dạng viết và nói; và ở một số cộng đồng ngôn ngữ, ngôn ngữ viết truyền thống là một ngôn ngữ khác hoàn toàn so với ngôn ngữ nói. Có một số bằng chứng cho thấy chữ viết ảnh hưởng đến sự phát triển nhận thức ở con người, có lẽ bởi vì để có được khả năng đọc viết, con người cần phải được giáo dục chính quy.[119]
Thời điểm hệ chữ viết đầu tiên xuất hiện có tương quan với sự khởi đầu của thời đại đồ đồng vào cuối thiên niên kỷ thứ 4 TCN. Chữ hình nêm của người Sumer và chữ tượng hình Ai Cập cổ xưa được nhiều học giả coi là các hệ chữ viết xuất hiện sớm nhất, cả hai đều phái sinh từ các hệ thống biểu tượng tiền-chữ viết trước đó vào khoảng 3400-3200 TCN, với các văn bản mạch lạc sớm nhất xuất hiện vào khoảng năm 2600 TCN. Phần lớn học giả cho rằng chữ viết của người Sumer là một phát minh độc lập; tuy nhiên, vẫn còn có những tranh luận rằng chữ viết Ai Cập và chữ viết Sumer có mối quan hệ nào đó. Các chuyên gia cũng có nghi vấn tương tự về chữ Hán của Trung Quốc, xuất hiện lần đầu vào khoảng 1200 TCN. Các hệ chữ Trung Bộ châu Mỹ tiền-Columbus (ví dụ chữ Olmec và chữ Maya) nhiều khả năng đã phát triển độc lập.[83]
Tất cả các ngôn ngữ đều biến đổi theo thời gian khi người nói sử dụng hoặc phát minh ra những lối nói mới và lan truyền sang các thành viên khác trong cộng đồng ngôn ngữ. Sự biến đổi ngôn ngữ xảy ra ở tất cả các cấp độ, từ âm vị đến từ vựng, hình thái, cú pháp và diễn ngôn. Mặc dù sự biến đổi ngôn ngữ ban đầu thường bị coi là tiêu cực bởi những người nói ngôn ngữ đó, thường là "sự suy đồi" hoặc dấu hiệu lệch khỏi chuẩn mực sử dụng ngôn ngữ, nhưng đó là điều tự nhiên và không thể tránh khỏi.[120]
Những biến đổi có thể ảnh hưởng đến một âm vị cụ thể hoặc toàn bộ hệ thống âm vị. Sự biến đổi ngữ âm (sound change) bao hàm: sự thay thế âm tố (speech sound) hoặc nét khu biệt (distintive feature) bằng một âm tố hoặc nét khu biệt khác, sự mai một hoàn toàn âm vị bị ảnh hưởng hoặc đôi khi là sự phát triển của âm vị mới chưa từng có. Sự biến đổi ngữ âm có tính điều kiện (conditioned) trong trường hợp âm đó chỉ bị biến đổi nếu nó xuất hiện ở vùng lân cận của các âm khác. Sự biến đổi ngữ âm có tính quy tắc (regular), tức là nó sẽ xuất hiện bất cứ khi nào các điều kiện cấu trúc được đáp ứng, bất kể yếu tố phi âm vị. Mặt khác, sự biến đổi ngữ âm xảy ra hãn hữu (sporadic), chỉ ảnh hưởng đến một từ hoặc một vài từ cụ thể mà không có sự đều đặn nào. Đôi khi một biến đổi đơn giản lại gây ra sự biến đổi dây chuyền khiến toàn bộ hệ thống âm vị bị ảnh hưởng. Điều này từng xảy ra trong ngữ tộc German, khi luật biến đổi âm Grimm ảnh hưởng đến tất cả các âm tắc trong hệ thống âm vị. Trong các ngôn ngữ nhánh German, phụ âm *bʰ gốc trở thành /b/, *b gốc trở thành /p/, và *p gốc trở thành /f/. Quy trình này diễn ra ở tất cả các phụ âm tắc và giúp lý giải hiện tượng các ngôn ngữ nhánh Ý như tiếng Latin lại có p ở pater 'cha' và pisces 'cá', còn các ngôn ngữ nhánh German như tiếng Anh lại có âm f ở father 'cha' và fish 'cá'.[121]
Một ví dụ lịch sử nữa cho sự biến đổi ngữ âm là Đại Dịch chuyển Nguyên âm tiếng Anh, và đây chính là lý do tại sao chính tả tiếng Anh không tương thích với phát âm hiện tại. Một nguồn khác của sự biến đổi ngữ âm là sự xói mòn từ ngữ khi phát âm trở nên bất phân biệt và sự rút gọn các âm tiết hoặc âm thanh trong một từ. Ví dụ về sự rút gọn âm: mea domina trong tiếng Latin trở thành madame trong tiếng Pháp và ma'am trong tiếng Anh Mỹ.[122]
Ngữ pháp của một ngôn ngữ có thể bị biến đổi nếu các mẫu diễn ngôn như các thành ngữ hoặc các cấu trúc câu cụ thể được ngữ pháp hóa (grammaticalized). Điều này thường xảy ra khi các từ hoặc các hình vị bị lược bỏ trong lời nói hằng ngày, khiến cho hệ thống ngữ pháp sắp xếp lại một cách vô thức để bù đắp cho các yếu tố đã mất. Ví dụ, tiếng Tây Ban Nha tiêu chuẩn phải thêm âm /s/ cuối động từ để đánh dấu chủ ngữ ngôi thứ hai "bạn"; nhưng một số biến thể của tiếng Tây Ban Nha Caribe không còn âm /s/ ở cuối từ nữa, khiến người nói tiếng Tây Ban Nha Caribe hiện nay phải diễn đạt ngôi thứ hai bằng cách sử dụng đại từ tú. Chẳng hạn, câu hỏi "tên bạn là gì" trong tiếng Tây Ban Nha chuẩn là ¿como te llamas? [ˈKomo te ˈjamas], song trong tiếng Tây Ban Nha Caribe phải là [ˈkomo ˈtu te ˈjama]. Một sự biến đổi ngữ âm đơn giản có thể gây ảnh hưởng đến hình thái lẫn cú pháp.[123] Một nguyên nhân phổ biến khác của sự biến đổi ngữ pháp là "sự hóa thạch" dần dần các thành ngữ thành các dạng ngữ pháp mới, điển hình như cấu trúc "going to" trong tiếng Anh, đang dần trở thành một thì tương lai ngữ pháp chính thức trong nhiều biến thể Anh ngữ (ví dụ: I'm gonna).
Sự biến đổi có thể được thúc đẩy bởi các yếu tố "nội tại ngôn ngữ", chẳng hạn cách phát âm thay đổi do các âm tố gần giống nhau khó phân biệt bị đồng hóa, hoặc thông qua các kiểu mẫu biến đổi khiến cho các cấu trúc hiếm gặp "trôi dạt" thành các cấu trúc thông thường hơn.[124] Một số biến đổi ngôn ngữ xảy ra bởi lý do xã hội, chẳng hạn khi một cách phát âm được liên kết với nhóm/tầng lớp xã hội nhất định hoặc với hệ tư tưởng nhất định, và do đó cách phát âm ấy lan sang những cá nhân muốn trở thành một phần của nhóm hoặc hệ tư tưởng đó. Vì lẽ đó, các vấn đề liên quan đến bản sắc và chính trị cũng có thể ảnh hưởng sâu sắc đến cấu trúc ngôn ngữ.[125]
Một nguyên nhân nữa rất quan trọng đối với quá trình biến đổi ngôn ngữ là sự tiếp xúc và lan tỏa đặc điểm ngôn ngữ. Tiếp xúc ngôn ngữ xảy ra khi các nhóm người nói hai hoặc nhiều ngôn ngữ/phương ngữ tương tác dai dẳng với nhau.[126] Đa ngôn ngữ rất phổ biến suốt lịch sử nhân loại, và hiện nay, phần lớn dân số loài người biết từ hai ngôn ngữ trở lên. Trước khi xuất hiện khái niệm quốc gia dân tộc, chỉ có những nhóm dân cư sinh sống trên các đảo nhỏ cô lập mới không biết ngôn ngữ nào ngoài tiếng mẹ đẻ. Nhưng sau sự trỗi dậy của ý thức hệ coi một dân tộc-một nhà nước-một ngôn ngữ là thể chế chính trị lý tưởng nhất, chủ nghĩa đơn ngôn ngữ mới có cơ hội lan rộng toàn cầu. Trên thế giới hiện chỉ có 250 quốc gia cùng với khoảng 6.000 ngôn ngữ, do vậy, hầu hết các quốc gia thực chất đều đa ngôn ngữ và hầu hết các ngôn ngữ tồn tại trong mối liên hệ lân cận với các ngôn ngữ khác.[127]
Khi các cộng đồng nói các ngôn ngữ khác nhau sinh sống trao đổi ngay sát nhau, thì sự ảnh hưởng lẫn nhau giữa các ngôn ngữ của họ là điều hiển nhiên. Thông qua sự tiếp xúc ngôn ngữ bền vững trong một khoảng thời gian dài, đặc điểm ngôn ngữ sẽ bị khuếch tán giữa các ngôn ngữ. Tức là nếu chúng tuy thuộc các ngữ hệ khác nhau và ban đầu không có nhiều điểm chung, sau khi tiếp xúc lâu dài lại bị hội tụ và trở nên giống nhau hơn. Ở những khu vực có nhiều ngôn ngữ tiếp xúc, điều này có thể dẫn đến việc hình thành các Sprachbund hay vùng ngôn ngữ, trong đó các ngôn ngữ không liên quan chia sẻ nhiều điểm chung. Một số vùng ngôn ngữ đã được ghi nhận là vùng ngôn ngữ Balkan, vùng ngôn ngữ Trung Bộ châu Mỹ, vùng ngôn ngữ Ethiopia, v.v. Ngoài ra, các khu vực diện rộng như Nam Á, Châu Âu và Đông Nam Á đôi khi cũng được coi là các vùng ngôn ngữ vì sự phổ biến của nhiều đặc điểm vùng (areal feature).[128][129]
Tiếp xúc ngôn ngữ cũng có thể dẫn đến nhiều hiện tượng ngôn ngữ thú vị khác, bao gồm hội tụ ngôn ngữ (language convergence), sự vay mượn (borrowing) và sự thay thế từ vựng (relexification). Nếu các ngôn ngữ tiếp xúc dai dẳng với nhau, một hoặc nhiều ngôn ngữ hỗn hợp không thuộc ngữ hệ nào có khả năng sẽ được khai sinh. Ngôn ngữ pidgin (hoặc tiếng bồi) là một thể loại ngôn ngữ trộn, xuất hiện khi hai nhóm người trưởng thành nói hai ngôn ngữ riêng biệt thường xuyên trao đổi và tương tác với nhau, nhưng không nhóm nào biết nói trôi chảy ngôn ngữ của nhóm kia. Trong trường hợp đó, hai nhóm thường sẽ xây dựng hình thức ngôn ngữ có đặc điểm ngôn ngữ của cả hai nhóm, nhưng với cấu trúc ngữ pháp và ngữ âm được giản lược. Thứ tiếng mới đó có thể tiếp thu hầu hết phạm trù ngữ pháp và ngữ âm tồn tại ở ngôn ngữ cha mẹ. Định nghĩa chính thức của tiếng bồi là ngôn ngữ mà không có người bản ngữ, mà chỉ là ngôn ngữ thứ cấp được nói bởi những người đã có sẵn tiếng mẹ đẻ rồi. Tuy vậy, nếu tiếng bồi trở thành ngôn ngữ chính của một cộng đồng, thì thế hệ sau lớn lên trong môi trường đó sẽ thụ đắc tiếng bồi như tiếng mẹ đẻ của chúng. Trong quá trình truyền khẩu, cấu trúc của tiếng bồi sẽ thay đổi và trở nên phức tạp hơn theo thời gian. Các nhà ngôn ngữ học gọi thứ tiếng bồi đã trải qua sự phức tạp hóa là ngôn ngữ Creole (hoặc tiếng lai). Ví dụ: tiếng Tok Pisin là một ngôn ngữ lai chính thức của Papua New Guinea, ban đầu là một ngôn ngữ pidgin dựa trên tiếng Anh và tiếng Nam Đảo; tiếng Kreyòl ayisyen là một ngôn ngữ phái sinh từ tiếng Pháp ở Haiti; tiếng Michif là một ngôn ngữ lai giữa tiếng Cree của thổ dân Anh-điêng và tiếng Pháp.[130]
Ngôn ngữ | Người nói bản ngữ (triệu)[131] |
---|---|
Quan thoại | 848 |
Tây Ban Nha | 329 [chú thích 7] |
Anh | 328 |
Bồ | 250 |
Ả Rập | 221 |
Hindi | 182 |
Bengal | 181 |
Nga | 144 |
Nhật | 122 |
Java | 84.3 |
SIL Ethnologue định nghĩa "ngôn ngữ sống" là "ngôn ngữ có ít nhất một người nói và phải là ngôn ngữ đầu tiên của họ". Số lượng chính xác các ngôn ngữ sống đã biết dao động trong khoảng 6.000 đến 7.000, tùy thuộc vào định nghĩa "ngôn ngữ" của mỗi tác giả và phương thức xác định sự khác biệt giữa "ngôn ngữ" và "phương ngữ". Tính đến năm 2016, Ethnologue đã lập danh mục 7.097 ngôn ngữ sống của con người.[133] Ethnologue phân loại nhóm ngôn ngữ dựa trên các nghiên cứu về mức độ thông hiểu lẫn nhau (mutual intelligibility), và do đó thường bao gồm nhiều mục hơn các phân loại bảo thủ. Ví dụ, tiếng Đan Mạch được hầu hết các nhà ngôn ngữ học coi là một ngôn ngữ với một phương ngữ nhưng Ethnologue lại liệt thành hai ngôn ngữ riêng biệt (ngôn ngữ Đan Mạch và phương ngữ/ngôn ngữ Jutland).[131]
Theo Ethnologue, 389 ngôn ngữ (chiếm 6% tổng số ngôn ngữ) có hơn một triệu người nói. Những ngôn ngữ này cộng lại chiếm 94% dân số thế giới, trong khi 94% ngôn ngữ trên thế giới được nói bởi 6% dân số toàn cầu còn lại.
Không có sự phân biệt rõ ràng giữa ngôn ngữ và phương ngữ. Nhà ngôn ngữ học Max Weinreich từng nói một câu cách ngôn rất nổi tiếng rằng "ngôn ngữ là một phương ngữ với quân đội và hải quân".[134] Biên giới các quốc gia thường bóp méo sự khác biệt ngôn ngữ thực chất, làm khó khăn cho việc phân loại ngôn ngữ và phương ngữ. Ví dụ, tiếng Khách Gia, tiếng Quảng Đông và tiếng Quan Thoại thường được coi là "phương ngữ" của tiếng Trung, mặc dù sự khác biệt giữa chúng rất lớn, hơn cả sự khác biệt giữa giọng Hà Nội và giọng thành phố Hồ Chí Minh của tiếng Việt chẳng hạn. Trước chiến tranh Nam Tư, tiếng Serbo-Croatia được coi là một ngôn ngữ duy nhất với hai biến thể quy chuẩn, nhưng vì lý do chính trị xã hội, tiếng Croatia và tiếng Serbia hiện nay bị coi là những ngôn ngữ riêng biệt và sử dụng các hệ chữ viết khác nhau. Nói cách khác, sự phân biệt ngôn ngữ-phương ngữ còn phụ thuộc vào tình hình chính trị, văn hóa, hệ chữ viết hoặc mức độ thông hiểu lẫn nhau.[135]
Các ngôn ngữ trên thế giới có thể được nhóm lại thành các ngữ hệ nếu người ta chứng minh được chúng diễn tiến từ một tổ tiên chung. Hiện nay các nhà ngôn ngữ học đã xác định được hàng trăm ngữ hệ, song phải chú ý rằng các ngữ hệ có thể được gộp lại nếu các bằng chứng mới lộ diện ủng hộ tổ tiên chung của chúng. Ngoài ra, cũng tồn tại hàng tá ngôn ngữ biệt lập, tức những ngôn ngữ không thể được chứng minh là có quan hệ "di truyền" với bất kỳ ngôn ngữ nào khác trên thế giới. Một vài ví dụ điển hình bao gồm: tiếng Basque ở châu Âu, tiếng Zuni ở New Mexico, tiếng Purépecha ở Mexico, tiếng Ainu ở Nhật Bản, tiếng Burushaski ở Pakistan, v.v.[136]
Ngữ hệ có nhiều người nói nhất trên thế giới là hệ Ấn-Âu với khoảng 46% dân số thế giới sử dụng.[137] Hệ này bao gồm nhiều ngôn ngữ chính trên thế giới như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Nga và tiếng Hindustani (tiếng Hindi/tiếng Urdu). Ngữ hệ Hán-Tạng được sử dụng bởi tầm 20%[137] dân số thế giới và bao gồm nhiều ngôn ngữ ở Đông Á, bao gồm tiếng Khách Gia, tiếng Quan Thoại, tiếng Quảng Đông, tiếng Tây Tạng, tiếng Miến Điện và hàng trăm ngôn ngữ khác.[138]
Châu Phi là ngôi nhà chung của rất nhiều ngữ hệ. Lớn nhất trong số đó là ngữ hệ Niger-Congo, bao gồm các ngôn ngữ như tiếng Swahili, tiếng Shona và tiếng Yoruba. Người nói các ngôn ngữ Niger-Congo chiếm 6,9% dân số thế giới.[137] Có một số lượng tương tự người nói các ngôn ngữ Phi-Á ở châu Phi và châu Á, bao gồm ngữ tộc Semit như tiếng Ả Rập, tiếng Do Thái và các ngôn ngữ của vùng Sahara, chẳng hạn ngữ tộc Berber và tiếng Hausa.[138]
Ngữ hệ Nam Đảo được 5,5% dân số thế giới sử dụng và phân bố trải dài từ Madagascar đến Đông Nam Á hải đảo rồi ra tận Châu Đại Dương.[137] Hệ này bao gồm các ngôn ngữ như tiếng Malagasy, tiếng Māori, tiếng Samoa và nhiều ngôn ngữ bản địa của Indonesia và Đài Loan. Các ngôn ngữ Nam Đảo có nguồn gốc từ đảo Đài Loan vào khoảng 3000 năm TCN và bành trướng qua châu Đại dương thông qua các luồng di cư trên đại dương với công nghệ hàng hải tiên tiến của người Nam Đảo. Các ngữ hệ đông dân khác là hệ Dravidia ở Nam Á (chẳng hạn tiếng Kannada, tiếng Tamil và tiếng Telugu), hệ Turk ở Trung Á (chẳng hạn tiếng Thổ Nhĩ Kỳ và tiếng Duy Ngô Nhĩ), hệ Nam Á (chẳng hạn tiếng Môn, tiếng Khmer và tiếng Việt), và hệ Tai–Kadai ở Đông Nam Á (chẳng hạn tiếng Thái, tiếng Lào và tiếng Tày).[138]
Các khu vực trên thế giới có sự đa dạng ngôn ngữ lớn nhất, chẳng hạn Châu Mỹ, Papua New Guinea, Tây Phi và Nam Á, có hàng trăm ngữ hệ nhỏ. Những khu vực này có sự đa dạng ngôn ngữ rất cao so với thế giới mặc dù không chiếm phần đông người nói. Ở châu Mỹ, một số ngữ hệ lớn nhất bao gồm ngữ hệ Quechua, ngữ hệ Arawak, và ngữ hệ Tupi-Guarani của Nam Mỹ, ngữ hệ Ute-Aztec, ngữ hệ Oto-Mangue và ngữ hệ Maya của Trung Bộ châu Mỹ, và ngữ hệ Na-Dene, ngữ hệ Iroquois và ngữ hệ Algonqui của Bắc Mỹ. Ở Úc, hầu hết các ngôn ngữ bản địa thuộc về ngữ hệ Pama–Nyungar, còn New Guinea là nơi phân bố phần lớn các hệ nhỏ và các nhóm biệt lập, cũng như một số ngôn ngữ Nam Đảo.[136]
Một ngôn ngữ được coi là bị đe dọa khi đa số người nói ngôn ngữ đó mất đi hoặc chuyển sang dùng ngôn ngữ khác. Sự mai một ngôn ngữ xảy ra khi một ngôn ngữ không còn người nói bản ngữ và trở thành ngôn ngữ chết. Nếu một ngôn ngữ chết không được lưu giữ lại hoặc không phát sinh ra ngôn ngữ hậu duệ nào, thì nó được gọi là một ngôn ngữ thất truyền hay "tuyệt chủng" (extinct). Sự thất truyền ngôn ngữ là điều thường xuyên xảy ra suốt lịch sử nhân loại; tuy vậy khi nhân loại bước vào thế kỷ 20 và 21, nhiều ngôn ngữ đang dần biến mất với tốc độ nhanh chóng mặt do các quá trình toàn cầu hóa và chủ nghĩa thực dân mới, điều kiện mà khiến cho các ngôn ngữ nhỏ bị lấn át bởi các ngôn ngữ có vị thế kinh tế-xã hội vượt trội hơn.[6]
Trong số 6.000[5] đến 7.000 ngôn ngữ được sử dụng tính đến năm 2010, 50-90% tổng số đó được dự đoán là sẽ thất truyền vào năm 2100.[6] 20 ngôn ngữ top đầu đều có hơn 50 triệu người nói, chiếm tận 50% dân số thế giới; trong khi đó, hầu hết các ngôn ngữ nhỏ có số lượng người nói chỉ vỏn vẹn dưới 10.000.[6]
Tổ chức Giáo dục, Khoa học và Văn hóa Liên Hợp Quốc (UNESCO) đề ra 5 mức độ nguy cấp ngôn ngữ như sau: "an toàn", "sắp nguy cấp" (trẻ em chỉ nói ngôn ngữ đó ở nhà), "chắc chắn nguy cấp" (trẻ em không được nói ngôn ngữ đó), "cực kỳ nguy cấp" (chỉ thế hệ già lão mới biết nói ngôn ngữ đó) và "nguy cấp trầm trọng "(chỉ một bộ phận thế hệ già nhất biết nói ngôn ngữ đó, mà cũng hiếm khi sử dụng trong hội thoại hằng ngày). Bất chấp những luận điệu kiểu như "thế giới sẽ tốt đẹp hơn nếu mọi người chỉ sử dụng một ngôn ngữ chung duy nhất", chẳng hạn tiếng Anh hoặc tiếng Esperanto, các chuyên gia đồng thuận rằng sự mai một ngôn ngữ sẽ gây tổn hại tới đa dạng văn hóa của thế giới. Quay lại câu chuyện về tháp Babel trong Cựu ước, nhiều người tin rằng sự đa dạng ngôn ngữ là nguyên nhân gây ra xung đột chính trị,[37] nhưng điều này mâu thuẫn với thực tế rằng nhiều xung đột lớn trên thế giới diễn ra ở những nơi có sự đa dạng ngôn ngữ rất thấp, chẳng hạn chiến tranh Nam Tư và nội chiến Hoa Kỳ, hoặc cuộc diệt chủng Rwanda, trong khi nhiều nơi có sự đa dạng ngôn ngữ cao lại có tình hình chính trị rất ổn định.[139]
Nhiều dự án đã và đang được đưa ra nhằm ngăn chặn hoặc làm chậm lại sự mất mát ngôn ngữ bằng cách tái thiết các ngôn ngữ đang bị đe dọa, ví dụ như việc thúc đẩy giáo dục và xóa nạn mù chữ ở các cộng đồng bản ngữ. Trên khắp thế giới, nhiều quốc gia đã ban hành những đạo luật cụ thể nhằm bảo tồn các ngôn ngữ bản địa. Tuy vậy, một số ít các nhà ngôn ngữ học cho rằng sự mất mát ngôn ngữ là quá trình tự nhiên không nên chống lại, và việc lưu trữ các ngôn ngữ đó cho hậu thế đã là quá đủ.[140]
Noi theo dự án phục hồi tiếng Wales đã rất thành công ở Anh, Đại học Waikato ở New Zealand cũng đã khởi hoạt chương trình phục hồi tiếng Māori của riêng họ.[141][142] Năm 2019, công ty truyền hình Hawaii thuộc kênh Oiwi đã đến thăm một trung tâm dạy tiếng Wales ở Nant Gwrtheyrn, Bắc Wales, để trao đổi nhằm tìm phương án bảo tồn ngôn ngữ Ōlelo Hawaiʻi của họ.[143]
An ungrammatical sentence is one that is impossible in a given language, one that a native speaker of that variety would never utter naturally. (Remember that ungrammatical sentences are marked with an asterisk, *.
koko gorilla operant conditioning.
Từ điển từ Wiktionary | |
Tập tin phương tiện từ Commons | |
Tin tức từ Wikinews | |
Danh ngôn từ Wikiquote | |
Văn kiện từ Wikisource | |
Tủ sách giáo khoa từ Wikibooks | |
Tài nguyên học tập từ Wikiversity |