databricks基本操作介绍

databricks基本操作介绍

ID:43484605

大小:471.04 KB

页数:12页

时间:2019-10-07

databricks基本操作介绍_第1页
databricks基本操作介绍_第2页
databricks基本操作介绍_第3页
databricks基本操作介绍_第4页
databricks基本操作介绍_第5页
资源描述:

《databricks基本操作介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、databricks基本操作databricks介绍Databricks属于Spark的商业化公司,由美国伯克利大学AMP实验室著名的Spark大数据处理系统多位创始人联合创立。Databricks致力于提供基于Spark的云服务,可用于数据集成,数据管道等任务。Databricks公司的云解决方案由三部分组成:Databricks平台、Spark和Databricks工作区。该产品背后的理念是提供处理数据的单独空间,不受托管环境和Hadoop集群管理的影响,整个过程在云中完成。该产品有几个核心

2、概念:由Notebooks提供一种与数据交互并构建图形的方法,当用户了解了显示数据的方式时,就可以开始构建主控面板以监视某些类型的数据。最后,用户可以通过该平台的任务启动器来规划ApacheSpark的运行时间。一1创建集群Databricks的核心就是ApacheSpark群集。为了执行代码(包括Spark代码)或导入一些创建集群所需的数据。创建群集单击群集菜单图标左侧菜单中的群集图标。“群集”页面允许您管理群集。群集页面一旦在群集页面上,点击左上角的然后输入群集的名称以及该群集的配置。创建集

3、群后,可以开始执行代码。要了解更多信息,请参阅集群文档。2创建Notebooksnotebooks是与Databricks交互的界面创建notebooks菜单图标从主菜单中点击工作区图标开始。然后单击Workspace右侧的向下箭头,选择一个文件夹,然后选择“创建”>“Notebook”。创建笔记本将显示“创建笔记本”对话框:(1)为您的笔记本输入唯一的名称。(2)对于语言,单击下拉列表并选择您喜欢的任何语言。(3)对于集群,单击下拉列表并选择您在上述步骤中创建的集群。3使用Notebooks我

4、们需要将已创建的notebook附加到集群。在notebook中可以运行一些示例命令。3.1预定义变量在Databricks中,notebook已经具备了我们需要的一些最有用的ApacheSpark变量。注意不要在Databricks中自己创建SparkSession,SparkContext或SQLContext。不支持创建多个上下文,并可能导致不一致的行为。使用笔记本提供的现有上下文。描述变量名火花语境scSQL上下文/Hive上下文sqlContextSparkSession(仅限2.0)

5、spark3.2运行一些代码请键入要在单元格中执行的代码,然后单击单元格右上角的下拉箭头或按shift+Enter。这将执行这个代码单元格。SparkSparksparkSQLContextsqlContextHiveContextsqlContextSparkSparkSC现在我们已经看到了预定义的变量,让我们继续运行一些真正的代码!1+1=>2你执行后可以立即看到这个答案!3.3混合笔记本中的语言虽然notebook有默认语言,但在Databricks中,可以使用languagemagic命

6、令来混合语言。例如,在给定的notebook中,可以通过在单元格开头指定下列字符串,运行以下任何其他支持的语言来执行代码。%python-这允许在notebook中执行python代码(即使该notebook不是python)。%sql-这允许在notebook中执行sql代码(即使该notebook不是sql)。%r-这允许在notebook中执行r代码(即使该notebook不是r)。%scala-这允许在notebook执行scala代码(即使该notebook不是scala)。%sh-这

7、允许在notebook执行shell代码。%fs-这允许使用DatabricksUtilities-dbutils文件系统命令。阅读更多关于Databricks文件系统-DBFS和Databricks工具-dbutils页面。3.4notebook中的标记和HTML通过%md魔术命令,将输入的内容变为标题或者是一种文字的解释说明。例如,下面的代码将作为标价标题呈现%md我们可以使用相对路径链接到markdowncell中的其他笔记本或文件夹。将锚标签的href属性指定为相对路径,以$开头,然后按

8、照与Linux/Unix文件系统相同的模式:%mdLinktonotebookinsamefolderascurrentnotebook#=>连接到相同文件夹下的notebookLinktofolderinparentfolderofcurrentnotebook#=>连接到父文件夹下的notebookLinktoneste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。