欢迎来到天天文库
浏览记录
ID:43484605
大小:471.04 KB
页数:12页
时间:2019-10-07
《databricks基本操作介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、databricks基本操作databricks介绍Databricks属于Spark的商业化公司,由美国伯克利大学AMP实验室著名的Spark大数据处理系统多位创始人联合创立。Databricks致力于提供基于Spark的云服务,可用于数据集成,数据管道等任务。Databricks公司的云解决方案由三部分组成:Databricks平台、Spark和Databricks工作区。该产品背后的理念是提供处理数据的单独空间,不受托管环境和Hadoop集群管理的影响,整个过程在云中完成。该产品有几个核心
2、概念:由Notebooks提供一种与数据交互并构建图形的方法,当用户了解了显示数据的方式时,就可以开始构建主控面板以监视某些类型的数据。最后,用户可以通过该平台的任务启动器来规划ApacheSpark的运行时间。一1创建集群Databricks的核心就是ApacheSpark群集。为了执行代码(包括Spark代码)或导入一些创建集群所需的数据。创建群集单击群集菜单图标左侧菜单中的群集图标。“群集”页面允许您管理群集。群集页面一旦在群集页面上,点击左上角的然后输入群集的名称以及该群集的配置。创建集
3、群后,可以开始执行代码。要了解更多信息,请参阅集群文档。2创建Notebooksnotebooks是与Databricks交互的界面创建notebooks菜单图标从主菜单中点击工作区图标开始。然后单击Workspace右侧的向下箭头,选择一个文件夹,然后选择“创建”>“Notebook”。创建笔记本将显示“创建笔记本”对话框:(1)为您的笔记本输入唯一的名称。(2)对于语言,单击下拉列表并选择您喜欢的任何语言。(3)对于集群,单击下拉列表并选择您在上述步骤中创建的集群。3使用Notebooks我
4、们需要将已创建的notebook附加到集群。在notebook中可以运行一些示例命令。3.1预定义变量在Databricks中,notebook已经具备了我们需要的一些最有用的ApacheSpark变量。注意不要在Databricks中自己创建SparkSession,SparkContext或SQLContext。不支持创建多个上下文,并可能导致不一致的行为。使用笔记本提供的现有上下文。描述变量名火花语境scSQL上下文/Hive上下文sqlContextSparkSession(仅限2.0)
5、spark3.2运行一些代码请键入要在单元格中执行的代码,然后单击单元格右上角的下拉箭头或按shift+Enter。这将执行这个代码单元格。SparkSparksparkSQLContextsqlContextHiveContextsqlContextSparkSparkSC现在我们已经看到了预定义的变量,让我们继续运行一些真正的代码!1+1=>2你执行后可以立即看到这个答案!3.3混合笔记本中的语言虽然notebook有默认语言,但在Databricks中,可以使用languagemagic命
6、令来混合语言。例如,在给定的notebook中,可以通过在单元格开头指定下列字符串,运行以下任何其他支持的语言来执行代码。%python-这允许在notebook中执行python代码(即使该notebook不是python)。%sql-这允许在notebook中执行sql代码(即使该notebook不是sql)。%r-这允许在notebook中执行r代码(即使该notebook不是r)。%scala-这允许在notebook执行scala代码(即使该notebook不是scala)。%sh-这
7、允许在notebook执行shell代码。%fs-这允许使用DatabricksUtilities-dbutils文件系统命令。阅读更多关于Databricks文件系统-DBFS和Databricks工具-dbutils页面。3.4notebook中的标记和HTML通过%md魔术命令,将输入的内容变为标题或者是一种文字的解释说明。例如,下面的代码将作为标价标题呈现%md我们可以使用相对路径链接到markdowncell中的其他笔记本或文件夹。将锚标签的href属性指定为相对路径,以$开头,然后按
8、照与Linux/Unix文件系统相同的模式:%mdLinktonotebookinsamefolderascurrentnotebook#=>连接到相同文件夹下的notebookLinktofolderinparentfolderofcurrentnotebook#=>连接到父文件夹下的notebookLinktoneste
此文档下载收益归作者所有