人民網>>科技>>滾動

小程序統計中國姓名排行榜“不夠客觀”
中國人叫王濤的最多 小程序統計客觀否?
  2006年01月23日14:38 【字號 】【留言】【論壇】【打印】【關閉
  博客中國副總裁、高能物理研究所粒子物理碩士盧亮,提起自己的一個小發明就感到興奮:2005年,他僅用一個小時的時間就制作了一個小程序,用於統計在博客中國網站中出現的重名重姓數量。他原以為只是玩玩,沒想到,這個小程序竟然引來每天30萬的點擊量,到昨天為止,點擊量已累積達1000萬次,“大家都想來看看,中國到底有多少人與自己重名。”

  盧亮自己也承認,這個程序只是統計在博客中國裡注冊的網名,還不夠客觀。但中國科學院中國姓氏研究專家王大良幾十年的研究數據,就有一定的可信性,昨天,他向記者講述了自己研究中的發現以及中國人姓名中鮮為人知的秘密。

  姓名搜索器程序編寫者 每天招來30萬點擊率

  “往常,我們對博客數據庫進行開發時,通常把注冊者的姓名數據當垃圾信息來處理。”盧亮告訴記者,2005年1月,他突發奇想,編寫了一個小程序,隻要網民在對話框中輸入自己的姓名,按一下回車,不到兩秒鐘,程序就可以告訴你全中國有多少人與你同名同姓。

  根據盧亮的統計,他公布了如下數據:

  中國人叫劉波的最多,達到130余萬人,叫李剛的排名第二,有105萬人,叫李海的有90萬人,叫張勇的有81萬人,其后的王軍、王勇、張偉、劉偉、王偉、李偉也都各達70余萬人。

  盧亮編完后,將程序放到自己的博客上,三天后,當他再次打開博客時頓時驚呆了,每天30萬的點擊率讓他的訪客數成了天文數字,這一數字仍在不斷刷新,而他的博客也在短短3天時間裡,一躍成為全球博客點擊率排名前3000位的主打。

  “此時,我才認識到人們對自己的姓名有多關心。”

  於是他把程序放到了博客網上,一時間,這個程序和公布的數據引起了軒然大波。記者發現,僅連接這個程序的網站就達到數萬個,很多媒體也把盧亮公布的數據當作權威數據發表,“一千個人裡就有一個叫劉波”的新聞標題充斥著網絡,“叫我這個名的居然有3萬多人!”的帖子也開始出現。

  我的數據並不權威

  “實際上,我的數據並不權威。”盧亮在接受記者採訪時,解釋了這個程序的原理。“很簡單,這個程序的搜索范圍就是在博客中國中,所有博客網頁裡出現的姓名。”比如一個叫“張三”的人,程序先統計出“張”字在博客網頁姓名中出現的頻率百分比,然后再統計“三”字的百分比,把兩個百分比相乘,就得出“張三”這個名字在博客網頁中出現的重復率。

  由於當時博客網頁的姓名庫有40萬個注冊姓名,把這個重復率套用到13億人上,就得到程序給出的答案,包括“劉波有130萬”的結果。

  “這個結果肯定是不准確的。”盧亮對記者說,“首先,博客裡的注冊名不一定是真名。其次,可能會出現一個人注冊好幾次的情況。另外,中國上網使用博客的人畢竟隻佔很少比重,隨意把這個重復率套用到13億人上很不准確,隻能算出個大概。”

  但盧亮也認為,隻要輕點鼠標,就可以知道與自己同名同姓的大概人數,這比到派出所花錢花時間在全國人口戶籍庫中去查找要方便得多,“而且,公安部的戶籍庫也隻有4億個姓名。”

  盧亮的程序還有一個功能,就是把所有查詢過數據庫的人的名字傳輸到自己的服務器中,“人們用我的程序查詢,肯定用的是真名,現在我已經擁有了1000萬人的真姓名數據庫。”盧亮告訴記者,他瀏覽了一下這個數據庫,發現已有3000多個不同的姓,並得到了姓氏數量的排序,他還發現叫兩字名的人特別多,“基本重名重姓排在前20的全是兩字名。”

  目前,已有公司要與他合作,把這個程序繼續延伸,“我一直在更新這個程序,但最近太忙了。”身為博客中國副總裁的盧亮一直忙於開會、加班,接受記者採訪時已經是晚上11點,他還在辦公室裡。

  名人中的王濤 名人王濤真不少

  10萬王濤中不乏名人。乒乓世界冠軍當然聲名遠播,足球界還有大小王濤。同是藝術家,有書法王濤,畫家王濤和攝影師王濤。中國工程院院士王濤是一女性,為林業專家。寧夏的一位王濤是舍己救人的小英雄。湖北還有一位“專家型工人”。一位1925年入黨的33歲新四軍烈士也叫王濤。

  中國姓名研究專家 統計全國人口姓名難度大

  “統計姓名可沒這麼簡單,這不是一個小程序就能解決的問題。”中國姓名研究中心主任王大良昨天在接受記者採訪時很明確地表示,僅僅依靠統計網民的形式來計算全國姓名的重復比例並不可信,“樣本數量太少,再說在網上注冊名字的可靠性也值得商榷。”

  王大良告訴記者,與前段時間統計姓氏不同,對全中國人姓名的統計難度特別大。

  曾經對中國姓氏進行統計,並排列出最新百家姓的中科院遺傳研究所研究員袁義達昨天在接受記者採訪時,述說統計姓名的難度。

  “曾經有人問過,中國已經進行了多次人口普查,已經對全中國人口進行過統計,為什麼不能直接利用?實際上,普查過程中如果涉及姓名統計,那麼工作量將是驚人的。”他告訴記者,中國人的姓氏有4000多個,還算簡單,名字則千奇百怪,“很多生僻字無法拼寫,還有少數民族地區的姓名完全摸不到規律,就現階段的技術,人口普查並不能涉及名字。”

  而最近一次對中國人姓名進行統計還是在上世紀90年代,當時派出所使用的還是卡片管理戶籍,研究人員曾經統計過這些卡片。

  重復最多的名字應是“王濤”

  “實際上,重名重姓現象還是比較嚴重的,而且有越來越嚴重的趨勢。”王大良告訴記者,平時常用的姓氏有2000多個,而常用的名則隻有3000多個,如果按照能夠與姓氏搭配的關系,常用的也就2000個左右,中國有13億人口,重復的姓名就很多。

  根據他從各地戶籍的粗略統計來看,中國最多的重復名應該是王濤,“但也沒有100萬,充其量隻有10萬余人。”

  一個程序可以吸引1000萬的點擊量,其原因在於中國人對自己姓名的重視,“這種重視是中華傳統的力量,是一種凝聚力,也是我們研究姓名的原因。”

  袁義達也告訴記者,自從新百家姓公布后,引起了全國的普遍重視,很多地方給他打來電話,訴說自己所在地方的奇怪姓氏,“實際上人們一直把姓氏看得很重要,只是需要一個事件來激發他們的這種關注罷了。”

  三字名才是正宗中國名字

  “實際上,正規的中國名字應該由姓、譜名、名,三個成分構成。”王大良告訴記者,譜名一般是一個家族修家譜時所確定,三十年一小修,六十年一大修,確定譜名和其排序,“一般,譜名有其固定順序,可以是一首詩,或者是家族老人認為壓韻的話語,然后按照輩分,在名字中加入譜名,而最后的名則可自行隨意確定。”

  據王大良講,關於中國姓氏的立法起源於秦朝,當時規定所有山川河流,百姓姓名都不能與皇帝姓名重合,而譜名的規定也從那時開始。

  這個確定姓名的方式除了可以區分輩分外,還起到了消除同名同姓的作用。而到了東漢,兩字名突然開始興起,“王莽篡權后,為了強調自己革新的作用,要求百姓全部使用兩字名,由此,中國兩字名開始興起,同名的現象也開始加劇。”

  之后到了唐代,譜名才又重新被人們重視,三字名數量才逐漸增多,但兩字名的地位也已確定下來。

  據王大良講,現在的孔、孟、曾這幾大姓仍然在嚴謹地遵循著譜名的要求,而其他姓氏,譜名的作用則慢慢消失,“現在,除了少數邊遠地區還在修家譜,用譜名外,城市裡已經很少有沿用譜名的情況了。”

  “這也是同名同姓現象如此嚴重的原因。” 作者:□晚報記者 李寧源 制圖 鄔思蓓

來源:新聞晚報 (責任編輯:馬麗)
相關專題
· 發明
精彩推薦:


熱點新聞榜
答疑解惑:中國哪裡最易發地震?
全球進入地震多發期?近年來全球地震略覽
回顧2008年四川汶川大地震成因:龍…
地震逃生自救十大法則與四大常識(圖)
四川雅安7級地震 盤點史上20次超級…
NASA在太陽系外發現兩顆“地球” …
中國發現量子反常霍爾效應 能否再摘諾…
雅安地震並非汶川地震余震
圖解:四川雅安地震與汶川地震的關系(…
10 雅安汶川處同一斷裂帶 地震原因地質專…
...更多
  
人民網搜索  互聯網搜索


   

鏡像:日本  教育網  科技網
E-mail:info@peopledaily.com.cn 新聞線索:rm@peopledaily.com.cn

人民日報社概況 | 關於人民網 | 招聘英才 | 幫助中心 | 廣告服務 | 合作加盟 | 網站聲明 | 網站律師 | 聯系我們 | ENGLISH 
京ICP証000006號|
網上傳播視聽節目許可証(0104065)| 京朝工商廣字第0394號
人 民 網 版 權 所 有 ,未 經 書 面 授 權 禁 止 使 用
Copyright © 1997-2007 by www.people.com.cn. all rights reserved