当前位置:首页 > 申请书大全 > 通用与专业_通用工程专业
 

通用与专业_通用工程专业

发布时间:2019-03-12 03:52:17 影响了:

  通用搜索引擎技术与专业搜索引擎技术在发展方向上表现出越来越多的差异。   真正现代意义的搜索引擎,是伴随着互联网和超文本链接的应用而发生的。计算机自动搜集海量的网页,并对搜集到的网页建立索引信息库,用户通过向搜索引擎提交查询请求,查询请求通常以单个或多个关键词来表示,而获得即时响应的检索结果,具备全文检索功能。只有同时满足以上功能要求的搜索引擎,才能称之为真正的搜索引擎。
  搜索引擎从一个默默无闻的网络工具在10多年内迅速窜升成为互联网上仅次于邮件的第二大应用,并成为今天的投资人最感兴趣的技术之一,其直接诱因是互联网内容的爆炸式增长。资料显示,1994年7月在卡内基梅隆大学诞生的第一个真正意义的互联网搜索引擎Lycos,其最初收录索引的只有5.4万个网页,到今天全球影响力最大的搜索引擎Google收录索引已超过80亿个网页,运行搜索引擎从最初的单台服务器到数以几十万计的服务器,依然跟不上互联网信息资源的增长速度,而且毫无疑问,今天的内容正在以前所未有的速度递增,这给我们进行内容的收集和整理带来了很大挑战。
  搜索引擎的价值在于将传统的静态环境下的信息检索技术转移到动态、实时的网络环境中,并应用到互联网、外联网和企业内网的信息资源管理和信息利用中去,通过搜索引擎感知企业外部经营环境,进行信息资源开发、管理和利用,进而塑造企业竞争优势。今天,全球化和网络化对企业信息和知识资产的加工共享已经不只局限在提高生产率、有效整合企业资源、降低运营成本这些短期收益方面,更重要的是它已经涉及到企业的核心竞争力、生存力和综合实力的长远问题,已成为流淌在企业生产经营活动中的一种血液,成为另一种无形的生产要素。
  
  搜索引擎的演进
  
  搜索引擎的出现、发展和变化都不是一朝一夕得以完成的,追根溯源可以到最早的信息检索。
  信息检索(Information Retrieval)最早是由美国学者C.W.Mooers在1949年提出,主要面向以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世,计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代联机信息检索得到商业化应用而日渐流行,计算机化的联机信息检索以各类数据库为检索对象,并以联机服务中心等机构形式开展检索服务,从此信息检索用户开始由专业人员(或者检索中介)向个人用户转移。
  
  1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,借此普通的用户可以轻松地使用互联网。1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。这年春天,卡内基梅隆大学的Michael Mauldin将John Leavitt开发的网络蜘蛛程序(spider)与他自己开发的索引程序结合起来,创建了真正意义上的互联网搜索引擎LYCOS; 同年,Yahoo公司创立,它提供基于目录的信息检索服务开辟了搜索引擎的一个新时代。今天最赋盛名的Google诞生于1999年2月,由斯坦福大学的Larry Page等人推出,由于Google可为世界各地的用户提供所需的搜索结果,而且搜索时间通常不到半秒,一经推出就很受用户欢迎。现在,Google已经成为最著名的搜索引擎之一,索引的网页达到数十亿,每天提供数亿次查询服务。
  由于搜索引擎的重要地位日益显著,近年来,一些实力雄厚的跨国公司也进入了搜索引擎的研究和开发领域,例如,2004年,微软亚洲研究院正式把“互联网搜索和挖掘”纳入其主要研究方向,并组成了70多人的研究队伍。目前互联网上的搜索引擎已经达到数千个,其性能也有了很大提高。
  中文搜索引擎的发展起步较晚。1994年4月,中国科学院首次接入互联网; 在这之前,中国台湾、香港地区已率先接入互联网。此后,中文搜索引擎得到了快速发展,内地的代表作先后有天网、搜狐、网易、新浪、百度等,港台有Openfind、奇摩、茉莉之窗、网上行、悠游等。1998年1月,台湾中正大学吴升教授领导的GAIS实验室创立了Openfind中文搜索引擎,曾经同时为三大著名门户网站新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被百度和Google瓜分。2002年6月,Openfind开始进入英文搜索领域。北京大学计算机系研究开发了北大天网搜索系统,于1997年10月29日正式在CERNET上提供搜索服务。2000年年初,百度(Baidu)公司创立,开始为其他门户网站,如搜狐、新浪、Tom等提供中文搜索引擎。2001年10月正式发布Baidu搜索引擎门户。2002年4月,联索科技的IFACE专业搜索企业级产品面世,同年,中科院计算所研发出智能搜索引擎Ghunt。
  从2002年开始,中文搜索引擎门户出现了快速成长的趋势。2003年12月,原慧聪搜索正式更改为中国搜索,主要面向中文搜索。2004年8月,搜狐推出搜索网站。另外,新浪、网易等国内著名门户网站也相继推出了中文搜索引擎,提供网站、网页、新闻、软件、游戏等查询服务。值得注意的是,自2000年以来,国际大型跨国公司纷纷进军中文搜索引擎市场,分别采用收购或定向招聘的方式,在原有西文搜索引擎的基础上纷纷增加了支持中文搜索的功能,如Google、Yahoo、AltaVista等。这一方面促进了中文搜索引擎的研究与开发,另一方面也加剧了国内中文搜索引擎在线服务市场的竞争。
  当我们把搜索引擎作为信息技术的一部分来考察时,不难看到搜索引擎清晰的发展路径。在现代搜索引擎的发展历史之前,我们挑选出最有影响的事件,这些事件对于搜索引擎都具有重大的意义。
  1946年,世界上第一台电子数字计算机ENIAC在美国宾夕法尼亚大学诞生;
  1954年,世界上第一个文献信息的自动化检索系统在美国海军兵器中心诞生;
  1966年,联机实时检索服务系统Dialog在美国Lockheed公司研制成功,经过20余年的发展,成为商业、知识产权/法律/政府、医药、新闻、人文、科学、社会科学以及技术等主题领域数据库文档检索的商用系统;
  1969年,美国国防部资助的ARPANET连接了4台位于不同地点的大型计算机形成了Internet的雏形,最早的Internet应用分别是e-mail(电子邮件)、FTP(文件传输下载)、Telnet(远程登录);
  1974年,TCP/IP协议问世,美国国防部公开发布了计算机网络之间通信及互联的核心技术,促进了Internet的巨大发展;
  1982年,美国北卡罗莱纳州立大学的Steve Bellovin创立了著名的网络新闻组(Usenet),隐约有即时通信的雏形;
  1983年,美国纽约城市大学出现了最早的邮件列表服务(Mailing List)BITNet,同年在旧金山诞生了最早的BBS电子公告牌系统FidoNet;
  1989年3月,World Wide Web协议和超文本链接出现;
  1991年,美国明尼苏达大学信息检索系统Gopher问世;
  1993年,Marc Andreessen在美国国家超级计算应用中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic;
  1994年,美国网景公司推出支持HTML的浏览器Netscape;
  
  搜索引擎的两个发展方向
  
  著名咨询公司Gartner在2005年年底的关于搜索引擎的调研报告中,将其中的“企业搜索”改称“信息访问技术(information access technology)”。原因是: 搜索引擎厂商开始提供包括搜索技术在内的更多的技术; 搜索必不可少,但不能涵盖垂直行业的特定需要(专业市场应用); 寻找信息、智能地利用信息,需要越来越专业和创新的策略,Google的搜索模式无法照搬以适应企业或者专业搜索应用。
  信息访问技术和专业搜索的核心技术共同特点都是从四个方面进行纵深研究,这四个方面分别是专业化、个性化、智能化和人性化。信息访问技术和专业搜索的应用重点是互联网应用、电子商务应用和知识管理应用,越来越需要专业搜索的技术平台进行支持。目标是面向专业化信息服务,有序地提供精深信息和信息资源的再开发利用。
  专业搜索,即专业信息搜集与检索的简称,专业信息特指行业信息或主题信息,专业搜索以特定信息为获取目标和处理对象,针对专门需要而开发的对特定专业信息进行功能强大的搜集与检索软件系统平台。许多厂商开始提供包括搜索技术在内的更广泛的专业搜索技术,包括: 搜索(Search)、内容分类(content classification )、目录(categorization)、聚类(clustering)、事实与实体提取(fact and entity extraction)、分类法创建与管理(taxonomy creation and management )、信息表示(information presentation,例如帮助人们分析理解信息的可视化支持)、桌面(也称个人知识)搜索(在用户控制的信息库中定位、调用文档、数据、邮件和知识(intelligence)。
  专业搜索技术和通用搜索引擎技术的方向、路线表现出越来越多的差异,这些差异如图2所示。
  对于互联网应用来说,搜索技术的核心任务已经开始转向高质量的聚合、再分和挖掘。美国最新的研究报告又一次表明,互联网搜索引擎一直是保持着第二大互联网应用的位置。还需要指出的是,搜索引擎已是主流互联网应用的核心,是基础“引擎”。
  无论国内还是国外,搜索引擎正处于快速发展的阶段,用户已经形成了互联网搜索习惯,但是仍然得不到完整的搜索体验。在中国,拥有核心技术和产品的搜索引擎厂商数量依然不足以支撑国内搜索引擎产业的发展,几个搜索厂商利用先发优势,已经成为上市公司或者知名品牌。总体上目前仍处于搜索引擎发展的早期,产业化格局即将形成。未来三年,搜索引擎的发展将进入新的阶段,专业化、个性化的搜索引擎服务将得到极为快速的发展,培育并影响着个人用户进行信息消费的习惯,以用户为中心的、完整的搜索体验得到改善,搜索习惯得以延续并增强,搜索引擎服务从网络信息导航向网络信息服务转变,形成新型信息增值服务的巨大市场空间。虽然搜索引擎技术的发展速度相当程度地落后于互联网商业应用的发展速度,但仍将产生一批定位准确,创新力极强的搜索引擎公司,与互联网的整体市场发展和分化相呼应,形成搜索引擎差异化竞争的态势。搜索引擎行业形成更趋合理的产业链分工和合作,孕育着第二轮的爆炸式增长,初具搜索引擎产业的主脉络。未来10年内,搜索引擎回归到互联网经济的“引擎”地位,搜索引擎的神奇创富能量得到释放,搜索引擎真正退居幕后,搜索引擎将无处不在,搜索引擎的各种商业应用得到充分的普及,形成了清晰的搜索引擎产业链,搜索引擎技术会再度成为搜索引擎企业的核心竞争力。
  目前的路正长,信息爆炸、搜索引擎和全球超过10亿互联网用户的信息利用之间,我们面临的问题将不仅仅限于技术问题,更会涉及科学、文化、商业、社会等问题,搜索引擎未来的出路在哪里,依然是我们无法回避的问题。
  
  史忠植
  中国科学院计算技术研究所研究员,IEEE高级会员,博导。IFIP人工智能技术委员会(TC12)委员、IFIP机器学习和数据挖掘工作组主席,中国人工智能学会副理事长。长期从事智能科学、主体计算、机器学习等研究。
  
  王伟
  计算机软件与理论博士,中国科学院研究生院论文导师,北京联索科技公司总经理。主要研究领域是智能搜索引擎技术、Web语义计算技术和基于内容的多媒体信息检索系统等,曾领导开发具有国际先进水平的MIRES多媒体信息检索系统。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3